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é Avant-propos 


<* Les exemples proviennent de b littérature clinique A quelques endroits, des exem- 
ples avec des données fictives ont été introduits, mais la plupart des exemples 
proviennent de la littérature médicale récente J De manière à centrer la discussion 
sur la compréhension statistique de base, les résultats ont parfois été quelque peu 
simplifiés, sans (il faut fesperer) masquer l'essentiel de ces résultats. 

* Explication de l'approche bayésienne, L'approche bayésienne est une aide pour 
interpréter les P- va leurs, pour combiner les résultats de tests diagnostiques, pour 
évaluer un conseil génétique et pour analyser des liaisons génétiques. Alors que la 
plupart des ouvrages d'introduction ignorent l'analyse bayésienne, celle-ci est 
abordée de manière un peu détaillée dans la partie IV. 



Bit 


MATIERE COUVERTE 


Les sujets inclus dans ce livre ont été choisis de manière à ce que la matière 
couverte soit étendue plutôt que vue en profondeur. Ce choix a été effectué en raison du 
grand nombre de méthodes statistiques couramment utilisées dans la littérature biomédi- 
cale, En parcourant n Importe quelle revue médicale ou scientifique, on tombe assez rapi- 
dement sur [ utilisation d une technique statistique qui nest pas mentionnée dans la 
plupart des livres d'introduction. Pour guider ceux qui lisent ces articles, ce livre contient 
de nombreux thèmes absents des autres livres : risques relatifs et rapports de cotes, inter- 
valles de prédiction, tests non paramétriques, courbes de survie, comparaisons multiples, 
designs d'essais cliniques, calcul de la puissance d'un test, régression non linéaire, inter- 
prétation des tests diagnostiques { sensibilité, spécificité, etc). La régression multiple, la 
régression logistique, le modèle de régression de Cox des risques instantanés proportion- 
nels. les tests de randomisation et lod scores (log de cotes) ont également été brièvement 
introduits. L'analyse de variance a reçu une place moins importante que de coutume. 



CHAPITRES À PASSER 



Par rapport aux livres de statistique en général, celui-ci est assez court, Cependant, 
il contient sans doute encore bien plus que ce que les gens souhaitent lire en matière de 
statistique. Pour juste prendre connaissance des idées principales de la statistique sans 
trop de détails, il Faut lire les chapitres 1 à 5, 10 à 1 3 et 19. 

Ce livre est destiné à quiconque lit des articles dans la littérature biomédicale et pas 
seulement à ceux qui s'intéressent aux études cliniques. Les chercheurs fondamentalistes 
pourraient passer les chapitres 6, 9, 20, 21, 32 et 33 qui traitent de sujets qui ne se 
rencontrent habituellement pas en recherche fondamentale. Les autres chapitres sont 
appropriés à la ibis pour les cliniciens et les chercheurs fondamentalistes. 


1 Ces publications n'ont pas été sélectionnées parce quelles étaient particulièrement bonnes ou particulièrement 
mauvaises. U s'agit simplement d'un échantillon d'articles tic bonnes revues sur lesquels fauteur de ce livre est 
« tombé n eu cherchant des exemples (aussi, les ailleurs ne doivent pas cire particulièrement fiers ou gênés de voir 
leur travail inclus). 
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Introduction a la statistique 1 T 


La plupart des scientifiques n'ont pas cette chance. Dans de nombreuses branches 
de la biologie et tout spécialement en recherche clinique, le chercheur se trouve face à une 
importante variabilité biologique, il n'est pas capable de contrôler toute les variables utiles 
et est intéressé par de petits effets {disons des changements de Tordre de 20%), Avec de 
telles données, il est difficile de distinguer le signal que Ton recherche du bruit occasionné 
par la variabilité biologique et tes mesures imprécises. Les calculs statistiques sont néces- 
saires pour extraire quelque chose de sensé de telles données. 



LES CALCULS STATISTIQUES PERMETTENT D'EXTRA- 
POLER DE L'ÉCHANTILLON À LA POPULATION 


Les calculs statistiques nous permettent de tirer des conclusions générales à partir 
d'un nombre limité de données. Nous pouvons extrapoler vers un cas plus général à partir 
de nos données. Les statisticiens disent que Ton extrapole d'un érhmiïilfotf à une population, 
La distinction entre échantillon et population est la clé pour comprendre une grande partie 
de fa statistique. Ci-dessous sont évoqués quatre contextes différents où ces termes « popu- 
lation » et «échantillon » sont utilisés, 

# Contrôle de qualité. Cest dans le contexte du contrôle de qualité où l'échantillon est 
sélectionné aléatoirement dans la population générale que les termes «ban (filon et 
population prennent toute leur signification. Par exemple, une usine réalise des lots 
d'items (la population) mais sélectionne aléatoirement quelques items ( ï échantil- 
lon > pour les tester. Les résultats dérivés de T échantillon sont utilisés afin d'effec- 
tuer des inférences pour l'entièreté de la population. 

• Sondages politiques. Un échantillon aléatoire d'électeurs (l'échantillon) est sondé et 
les résultats sont utilisés pour tirer des conclusions à propos de la population totale 
d'électeurs. 

• Études dingues. L échantillon de patients étudiés est rarement un échantillon extrait 
aléatoirement d'une population plus grande. Cependant les patients inclus dans 
l'étude sont représentatifs d autres patients semblables et ['extrapolation de 
l'échantillon à la population a toujours son utilité. Les avis divergent souvent au 
sujet de la définition précise de la population, La population est-elle constituée de 
tous les patients semblables qui Fréquentent un centre médical particulier ou de 
tous ceux qui fréquentent l'hôpital universitaire d'une grande ville ou de tous les 
patients semblables du pays, du monde ? Même si la population est définie de façon 
plutôt vague, il n'en reste pas moins vrai que Ton désire utiliser les données de 
l'échantillon afin de tirer des conclusions pour un groupe plus grand, 

* Expériences de laboratoire. Étendre les notions d'échantillon et population pour les utili- 
ser dans le cadre des expériences de laboratoire n’est pas chose facile. Les données 
de l'expérience réalisée constituent l'échantillon. Si l'on répétait l'expérience, on 
aurait un échantillon différent. Les données de toutes les expériences que l'on 
aurait pu réaliser constituent la population. À partir des données de l'échantillon, 
on veut effectuer des inférences pour la situation idéale. 
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Introduction à la statistique 15 



POURQUOI EST-CE AUSSI DIFFICILE D'APPRENDRE 
LA STATISTIQUE? 


Cinq facteurs rendent ! 'apprentissage de la statistique difficile pour beaucoup 
d'étudiants; 

* La terminologie est trompeuse. En statistique, une signification particulière est 
attribuée à pas mal de mots ordinaires. Pour comprendre la statistique, il faut 
comprendre que le sens statistique de termes tels que significatif, erreur et Jiypotfee, 
est différent de celui que T usage courant donne habituellement à ces mots. En 
lisant ce livre, il faut faire particulièrement attention aux termes statistiques qui 
correspondent à des mots bien connus, 

■ Beaucoup de gens semblent croire que les calculs statistiques sont magiques et 
peuvent conduire à des conclusions beaucoup plus solides que ce rfest le cas 
réellement. L'expression statistiquement significatif est séduisante et souvent mal 
interprétée. 

* La statistique exige la maîtrise de concepts abstraits. Il n'est pas simple de réfléchir 
à des concepts théoriques tels que populations, distributions de probabilité et 
hypothèse nulle. 

* La statistique est à l’interface entre la mathématique et les sciences. Pour vraiment 
saisir les concepts statistiques, il faut être capable de les aborder sous les deux 
angles. Ce livre souligne le côté scientifique et évite la mathématique. Celui qui 
réfléchit comme un mathématicien peut plutôt préférer un texte qui utilise une 
approche mathématique, 

* La dérivation de nombreux tests statistiques inclut des mathématiques assez 
compliquées. À moins d'étudier des textes plus approfondis, il faut accepter en 
confiance, une grande partie des statistiques. On peut très bien apprendre à utiliser 
des tests statistiques et à en interpréter les résultats même sî on ne comprend pas 
entièrement leur mécanisme. Cette situation est fréquente en science ; en effet, peu 
de scientifiques comprennent véritablement tous les outils qu'ils utilisent. On peut 
interpréter les résultats d'un pH mètre (mesure l'acidité) ou d'un compteur à 
scintillation (mesure la radioactivité), même si l'on ne comprend pas à fond leur 
mécanisme. Il faut seulement en savoir assez sur le fonctionnement des instru- 
ments de mesure pour éviter de les utiliser dans des situations non appropriées. De 
la même manière, pour autant que I on utilise les tests statistiques de façon adé- 
quate, on peut calculer des tests statistiques et interpréter leurs résultats même si 
l'on ne comprend pas comment les équations ont été établies. 
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2 

L'INTERVALLE 
DE CONFIANCE 
D’UNE PROPORTION 



Les résultats d'une expérience peuvent être exprimés de différentes manières. Dans 
ce chapitre, nous allons considérer uniquement les résultats exprimés sous forme de pro- 
portion ou de fraction. Par exemple: la proportion de patients infectés à la suite d une 
intervention, la proportion de patients atteints d infarctus du myocarde chez qui survient 
un arrêt cardiaque, la proportion d étudiants qui réussissent un examen, la proportion 
d électeurs qui votent pour un certain candidat. Plus loin, nous discuterons d autres types 
de variables, notamment des mesures et des temps de survie. 



LA DISTRIBUTION BINOMIALE: 


DE LA POPULATION À L'ÉCHANTILLON 


Si on lance une pièce de monnaie non truquée, il y a une probabilité {ou chance) de 
50% qu elle atterrisse sur * face » et une probabilité de 50% qu'elle atterrisse sur « pile », 
Ceci signifie qu à long terme, une pièce tombera sur face à peu près aussi souvent qu elle 
tombera sur pile. Cependant, pour une série particulière de jets de la pièce de monnaie, on 
peut très bien ne pas observer que la pièce retombe sur face exactement dans la moitié des 
cas. On peut très bien observer uniquement des « faces» ou uniquement des « piles ». 
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2. L'intervalle de confiante d'une proportion ■ 23 
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FiGlfrl 2 J interprétation d'un intervalle de confiance. Dans cet exemple, on connaît Ea proportion vraie de 
w succès dans la population qui vaut 0,28. Celle-ci; est représentée par la ligne horizontale en pointillés- En 
utilisant un programme informatique qui peut générer des nombres aléatoires, 50 échantillons ont été 
sélectionnés de manière aléatoire simple de Fa population. Chaque ligne verticale représente I'IC à 95% de 
fa proportion de succès, calculé à partir d’un seul de ces 50 échantillons. Pour la plupart des échantillons, la 
proportion observée est proche de la proportion vraie, mais pour certains échantillons, l'écart est grand, Pour 
quatre échantillons (par exemple le cinquième à partir de la droite), I’IC à 95% n'indut pas la valeur vraie. Si 
t on collectait les données d'un très grand nombre d'échantillons, on s'attendrait à ce type d'observation dans 
5 % des cas 


population. IL n'y a pas de moyen de savoir si 1TC à 95 % que l'on a calculé inclut la valeur 
de la population. Tout ce que l'on sait, c'est qu'à longue échéance, 95 % des intervalles de 
ce type contiendront la valeur de la population et 5 % ne la contiendront pas. Bien entendu, 
chaque IC calculé contiendra la proportion observée dans l'échantillon. Ce que l'on ne peut 
savoir avec certitude, c'est si l'intervalle contient aussi la proportion de la population. 

Remarquons que 1 IC n est pas toujours symétrique autour de la proportion obser- 
vée dans l'échantillon. Pour le premier exemple, il s'étire plus loin vers la droite que vers 3a 
gauche. Avec des échantillons plus grands, les JC à 95% deviennent plus étroits et plus 
symétriques. 



HYPOTHESES REQUISES 


L IC pourra être interprété correctement si les conditions suivantes sont remplies : 

* Échantillon aléatoire simple (ou représentatif) 

* Observations indépendantes 

* Classification correcte 

* Estimation de l’événement réellement intéressant 
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2. L'intervalle de confiance d'une proportion 27 



EXEMPLE 


Dans le but de mieux conseiller les parents d enfants prématurés, M.C. Allen et coll. 
ont analysé la survie de prémaiurés\ Us ont étudié de manière rétrospective tous les 
enfants prématurés nés entre 22 et 25 semaines de gestation à 1 hôpital fohns Hopkins 
durant une période de 3 ans. Les chercheurs ont classé les décès en fonction de Page 
gestationnel. Aucun des 29 enfants nés à 22 semaines de gestation n’a survécu jusqu'à 
6 mois. Parmi les 39 enfants nés à 25 semaines de gestation 31 ont survécu au moins 
6 mois. 


Les auteurs de la recherche ont présenté ces résultats sans IC mais on peut les 
calculer. Calculer un IC a un sens uniquement si I échantillon est représentatif d une 
population plus grande, pour laquelle on souhaite faire des inférences. Il est raisonnable 
de penser que ces données récoltées sur plusieurs années dans un hôpital sont représen- 
tatives des données d'autres années provenant d autres hôpitaux, au moins des hôpitaux 
universitaires des grandes villes aux États-Unis. Si Ton ne veut pas admettre cette hypo- 
thèse, il ne faut pas calculer un IC. Cependant, les données ne vaudraient pas la peine d’être 
récoltées si les chercheurs ne pensaient pas que des résultats similaires pourraient être 
observés dans le futur, dans d’autres hôpitaux. 

Pour les enfants nés à 25 semaines de gestation, on veut déterminer ! IC à 95 % sur 
base de 31/39. Ces valeurs ne sont pas reprises dans la table Â5J, il faut donc calculer i'IC 
avec un ordinateur ou à la main. Avec le programme « InStat », on obtient un IC à 95% qui 
va de 63% à 91 % {si l’on utilise l’équation 2,1 qui suit, on calcule un intervalle approxi- 
matif: 67% à 92%). Ceci signifie que sî la proportion réelle d'enfants survivants valait 
moins de 63 %, îl y aurait moins de 2,5 % de chance d’observer par hasard une proportion 
aussi grande que celle observée dans l’échantillon. Cela signifie aussi que si la proportion 
réelle était supérieure à 91 %, la chance d observer juste par hasard, une proportion aussi 
petite, est inférieure à 2,5 %. Il nous reste donc 95 % de chance {100% - 2,5% - 2,5%) que 
la proportion vraie se trouve entre 63% et 91 %. 

Pour les enfants nés à 22 semaines de gestation, on veut déterminer I'IC à partir de 
0/29. Il ne faut pas utiliser l'équation 2.1 car le numérateur est trop petit. Il faut utiliser un 
programme informatique ou la table A5.1 dans les annexes. L' IC à 95% s’étend de ü% à 
11,9%, On peut être «certain» à 95% que dans la population, la proportion d enfants 
survivants se situe quelque part dans cet intervalle {comme on a observé 0%, I’IC en réalité 
ne s'étend que dans une seule direction, de sorte que l'on peut être certain à 97,5 % plutôt 
que certain à 95%). Bien qu'aucun enfant de notre échantillon né à 22 semaines d'âge 
gestationnel n'ait survécu* notre JC inclut la possibilité qu’il y ait dans la population une 
proportion de survivants aussi élevée que 1 1 ,9%. Ceci signifie que sî la proportion globale 
de survivants dans la population avait n'importe quelle valeur supérieure à 1 1,9%. it y 
aurait moins de 2.5 % de chance d observer par hasard 0 survivant dans un échantillon de 
29 enfants. 


1 MC Allen, PK Donohue. AE Dusman. The limit of viabllity -Néonatal outcomc of infants bom al 22 to 25 weeks 
gestation. N Engl J Med 229: 1 597- 1601 , 1 993. 
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2. L'in te rval le de confia nce d'une proporti or 31 


OBJECTIFS 

h Les termes suivants doivent vous être familiers : 

* Distribution binomiale 

* Distribution binomiale cumulée 

* Intervalle de confiance 
■ Échantillon 

* Population 

* Échantillon aléatoire 

* indépendance 

2. Lorsque vous rencontrez une proportion dans un article scientifique (ou ailleurs), 
vous devriez être capables de : 

* Définir la population. 

* Calculer (ou déterminer à partir d une table) MC à 95 % de la proportion. 

* Interpréter MC à 95% dans le contexte de letude. 

* Spécifier les hypothèses à vérifier pour que l'interprétation soit valide. 



EXERCICES 

L Parmi les 100 premières personnes qui ont subi une intervention chirurgicale, 6 
sont décédées. Pouvez-vous calculer UC à 95% de la probabilité de décéder suite à 
cette intervention? Si oui, calculez cet intervalle. Si non, de quelles informations 
devez- vous disposer? Quelles hypothèses devez- vous faire ? 

2. Un nouveau médicament est testé chez 100 patients et diminue la pression arté- 
rielle en moyenne de 6%. Pouvez-vous calculer UC à 95% de la réduction relative 
de la pression artérielle par ce médicament? Si oui. calculez cet intervalle. Si non, 
de quelles informations devez-vous disposer ? En quoi consiste UC de la réduction 
relative de la pression artérielle? Quelles hypothèses devez-vous faire? 

3. On étudie la viabilité de cellules par une coloration au bleu de trypan. Avec un 
hémoeytomètre, on dénombre 94 cellules non teintées (viables) et 6 cellules tein- 
tées (indiquant qu elles ne sont pas viables). Pouvez-vous calculer fiC à 95 % de la 
proportion de cellules teintées (mortes)? Si oui, calculez cet intervalle. Si non, de 
quelles informations devez-vous disposer? Quelles hypothèses devez-vous faire? 

4. En 1 989, 20 étudiants sur 125 inscrits en seconde année de médecine à San Diego 
ont raté l'examen écrit de biostatistique, Pouvez-vous calculer MC à 95% de la 
probabilité de réussir cet examen ? Si ouî r calculez cet intervalle. Si non, de quelles 
informations devez- vous disposer? Quelles hypothèses devez-vous faire? 

5. Ross Perot a obtenu 19% des votes lors de l'élection présidentielle aux États-Unis 
en 1992. Pouvez-vous calculer MC à 95% du pourcentage d’électeurs qui ont voté 
pour lui ? Si oui, calculez cet intervalle. Si non, de quelles informations devez-vous 
disposer? Quelles hypothèses devez-vous faire? 
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Pression artérielle systolique (mrnHg) 


Fiamt 3-1 Histogramme des pressions artérielles systoliques de 100 étudiants. Chaque rectangle couvre un 
intervalle de 5 mrnHg sur l'axe horizontal. La hauteur de chaque rectangle représente le nombre d'étudiants 
dont la pression artérielle est incluse dans cet intervalle. 
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Figure 3 2 D'autres histogrammes de la pression artérielle systolique de 100 étudiants. À gauche, chaque 
rectangle couvre un Intervalle de 20 mmHg, Comme il y a très peu de rectangles, Le graphique ne lournil pas 
beaucoup d'informations. À droite, chaque rectangle a une largeur de 1 mmHg. Comme il y a trop de 
rectangles, le graphique est trop détaillé et il est difficile de voir fa distribution des valeurs, l es histogrammes 
sont généralement les plus utiles lorsqu'ils incluent environ 10 à 20 rectangles. 

* Les valeurs enregistrées peuvent différer de manière substantielle de la pression 
artérielle réelle. Chaque mesure a été effectuée par une personne différente et 
inexpérimentée. Mesurer la pression artérielle avec un tensiomètre est quelque 
peu su bjectif étant donné que cela requiert de noter la position d une colonne de 
mercure à l'instant où un faible son apparaît {systolique) ou disparaît (diastolique). 
Il est également important de placer le brassard correctement , Il faut de I expérience. 
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N OU n - 1 ? LA DEVIATION STANDARD DE LA 
POPULATION VERSUS LA DS DE L’ÉCHANTILLON 


Les équations 3. 1 et 3 .2 supposent que l'on a effectué des mesu res su r Fentièreté de 
la population. Comme nous l avons déjà vu, c'est rarement le cas. Tout I intérêt des calculs 
statistiques est d’effectuer des inférences pour la population entière à partir des mesures 
effectuées dans un échantillon. Ceci introduit une complication supplémentaire dans le 
calcul de la variance et la DS, Pour calculer la DS à partir de ! équation 3,2, il faut calculer 
l’écart de chaque valeur par rapport à la moyenne de la population. Mais on ne connaît pas 
la moyenne de la population. Tout ce que Ton connaît, c'est la moyenne de l'échantillon. 
Sauf dans les cas très rares où la moyenne de l'échantillon serait égale à la moyenne de la 
population, les valeurs sont toujours plus proches (en moyenne) de leur moyenne d’échan- 
tillon que de la moyenne de la population globale. La somme des carrés des écarts par 
rapport à la moyenne de l'échantillon est donc plus petite que la somme des carrés d'écarts 
par rapport à la moyenne de la population et l'équation 3,2 donne une valeur trop petite 
pour la DS. Ce problème est résolu en réduisant le dénominateur à n — 1, plutôt que N, Le 
calcul de la variance et de la DS à partir d'un échantillon se fait en utilisant 1 équation 3.3. 


è(Yi - m) 2 

Variance de l'échantillon = s’ = — ; 

n — I 


DS de ! échantillon = s = 


n 


\ 


£( Y i - 

l-î 


n — 


1 


(3J) 


Remarquons que Ton passe de l'alphabet grec (fi, a) à l'alphabet romain (m, s) 
lorsque l'on passe des discussions sur la moyenne et DS de la population aux discussions 
sur la moyenne et la DS de 1 échantillon. Ce livre passe sous silence une foule de détails 
mathématiques et parfois passe sur cette distinction. Dans des livres plus mathématiques, il 
faut faire attention à la différence entre lettres grecques et romaines. 

If the différence between N and n - 1 ever matters you, then you are probably up to no good anyway 

— e.g. tryàng to substantiate a qoestionable hypothesis with marginal data. 

W,H. Press étal., Numertcat Recipes 

Si la différence entre N et n — 1 vous préoccupe toujours, alors vous faites sans 
doute fausse route de tout côté — par ex., en essayant de rendre substantielle une hypo- 
thèse douteuse avec des données marginales. 

I! y a une autre façon de comprendre pourquoi le dénominateur est n - l plutôt 
que N. lorsque nous calculons la moyenne m de l échantillon, nous faisons la somme de 
toutes les valeurs V et la divisons par le nombre de valeurs, n. Pourquoi diviser par n ? Nous 
avons appris à calculer une moyenne depuis si longtemps que nous n'y avons probable- 
ment jamais songé. Techniquement la moyenne est définie par la somme divisée par des 
degrés de liberté. La moyenne de l'échantillon a n degrés de liberté parce que chaque 
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LA DISTRIBUTION 

GAUSSIENNE 



LES DISTRIBUTIONS DE PROBABILITE 


Comme nous l'avons vu dans le chapitre précédent, un histogramme représente 
graphiquement la distribution des valeurs d'un échantillon. Dans de nombreuses situ- 
ations, ['histogramme a la forme d'une cloche. Les deux premiers graphiques de la 
figure 4.1 représentent les distributions en Forme de cloche de deux échantillons. Le deu- 
xième échantillon est plus grand et ['histogramme a été construit avec des rectangles plus 
étroits, de sorte qu'il apparaît plus lisse. 


Échantillon de 
taille moyenne 


Échantillon de 
grande taille 


! Entièreté de la 
population 



Valeur mesurée 


Valeur mesurée 


Valeur mesurée 


Hgim 4,1 Histogrammes et distributions de probabilité. Le graphique de gauche représente F histogramme 
dun échantillon de taille moyenne. La hauteur de chaque rectangle représente le nombre de sujets dont la 
valeur est contenue dans l'intervalle couvert par sa hase. Le graphique du milieu représente (histogramme 
d'un échantillon plus grand, Les rectangles sont plus étroits. Le graphique de droite représente 3a distribution 
de ( entièreté de là population. Comme la population est infinie et qu'il n'y a pas de rectangle, H n'est pas 
passible que 3 'axe des V représente le nombre de sujets. Au lieu de cela, il représente fa densité de probabilité. 
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Valeur mesurée 


fiCURt 43 Interprétation des distributions de probabilité, La surface sous l'entièreté de la courbe représente 
l'entièreté de la population. Toutes les valeurs comprises entre une DS au-dessus et une OS en dessous de la 
moyenne sont noircies. Le rapport de la surface noircie sur l’entièreté de la surface correspond à la proportion 
de la population dont Ea valeur se trouve entre une DS au-dessus et une DS en dessous de la moyenne. On peut 
constater que la surface noircie vaut environ deux tiers de la surface totale, St nous la mesurons avec plus de 
précision, nous trouvons qu'elle vaut 68,27% de la totalité de la courbe. 


Dans les articles scientifiques, on trouve souvent des moyennes et des DS sans 
représentation graphique de la distribution des valeurs. En lisant «moyenne = 123, 
DS = 14 », le lecteur devrait avoir une idée intuitive de ce que cela représente si la popula- 
tion est gaussienne, Les personnes qui ont un hémisphère cérébral droit bien développé 
devraient être capables de visualiser mentalement la figure 4.4, Celles dont l'hémisphère 
gauche est dominant devraient être capables d h effectuer mentalement quelques calculs 
laborieux (deux tiers des valeurs sont compris entre 109 et 137), Dans tous les cas, le 
lecteur devrait être capable de se représenter la distribution des données sur base de la DS, 

La table l permet de répondre à des questions comme celle-ci : quelle proportion de 
la population a une pression artérielle systolique supérieure à 140 mmHg? Étant donné 
que la moyenne vaut 123,4 mmHg et la DS = 14,0. la question porte sur des écarts de plus 
de (140,0 — 12 3,4)/ 14.0 = 1,2 DS à la moyenne. Considérant z = 1,2, la table A5.2 des 
annexes permet de dire que 1 1,51 % de la population ont une pression artérielle systolique 
supérieure à 140 mmHg, 

De façon plus générale, il est possible de calculer z pour n importe quelle valeur de 
Y en utilisant l'équation 4.1 : 


|Y — moyen nei 
DS 


(4.1) 
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plus marqués dans les extrémités de la distribution. Il ri y a pas de raison non plus 
de penser que la population est distribuée symétriquement de pan et d'autre de la 
moyenne. 

* Pourquoi dire que 2,5% des pressions artérielles dans la population sont anorma- 
lement élevées et que 2.5 % des pressions artérielles sont anormalement basses ? 
Qu'est-ce que ces 2,5% ont de Tellement spécial ? Pourquoi devrait-il y avoir exac- 
tement autant de valeurs anormalement élevées que de valeurs anormalement 
basses? 

Le problème est que le terme normal a au moins trois significations : 

* Les mathématiciens et les statisticiens utilisent ce terme comme synonyme de 
l'adjectif gaussien. Ils ne trou vent cependant rien d’« anormal » aux variables dis- 
tribuées d'une toute autre façon. 

* Les scientifiques utilisent habituellement ce terme pour caractériser des valeurs 
couramment observées. 

* Les cliniciens utilisent le mot normal tantôt pour dire « habituel ». tantôt pour dire 
que des valeurs ne sont pas associées à la présence d une maladie. 

Déterminer une « étendue normale » est un problème difficile Tout peut donc 
sembler un peu confus en ce moment. L'important est de réaliser qull est habituellement 
trop simple de définir une « étendue normale » de valeurs par la moyenne plus ou moins 
2 DS, 


Ëverybody belle ves irt the normal approximation, the expérimentera bécause they tbink it is a mathe- 
matical theorem. the mathématiciens because they think it is an experimental tact. 

G. üppman (1945-1921) 


Tout le monde croit en l'approximation normale, les expérimentateurs parce qu'ils croient que c'est un 
théorème mathématique, les mathématiciens parce qu'ils croient que c’est un fait expérimental. 



RESUME 



De nombreuses variables suivent une distribution gaussienne. On s y attend 
lorsque de nombreux facteurs indépendants contribuent a la variabilité sans qu'un des 
facteurs soit plus important. Les surfaces sous des portions de la distribution gaussienne 
sont reprises dans une table, celle de ta distribution «z». On appelle ifircrvâffr de prédiction 
[ étendue des valeurs dans laquelle on a 95 % de chance de trouver la prochaine valeur qui 
sera échantillonnée dans la population. Les Imita normales peuvent être définies de nom- 
breuses façons. La distribution gaussienne n'est pas toujours utile pour définir des valeurs 
« normales»* 
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5. L'Intervalle de confiance d'une moyenne SS 


Dans l'exemple 5.2 r nous avons tiré un échantillon aléatoire de cinq étudiants de la 
dasse. L'hypothèse est donc respectée. Si nous avions choisi des étudiants volon- 
taires pour participer à I étude, nous aurions mesuré les pressions artérielles d'étu- 
diants particulièrement intéressés par leur pression artérielle (on leur avait peut- 
être signalé autrefois qu elle était élevée}, Un tel échantillon n'aurait pas été repré- 
sentatif de l'entièreté de la population et toute inférence statistique nous aurait 
probablement induits en erreur. 

Dans les études cliniques, une sélection aléatoire des patients dans Y entièreté de la 
population des patients similaires n'est pas réalisable. Au lieu, de cela, les patients 
sont sélectionnés pour participer à l'étude parce qu'ils se sont trouvés dans la 
clinique adéquate au moment adéquat. On parle plutôt d'échantillon de convenance 
que rî'écJianhlfôn aléatoire. Pour que les calculs statistiques aient un sens, nous 
devons considérer que l'échantillon de convenance représente correctement l'en- 
tièreté de La population et que les résultats sont semblables à ceux qui auraient été 
observés si on avait utilisé un véritable échantillon aléatoire. 

* La population suit une distribution gaussienne, au moins approximativement. 
Cette condition n'est pas dune grande importance si l’échantillon est grand. Dans 
l'exemple 5,L l'hypothèse d une distribution gaussienne importe très peu puisque 
Léchantillon est constitué de 100 personnes (à moins que la distribution de la 
population ne soit très étrange). L'exemple 5,2 concerne seulement 5 étudiants* 
Dans le cas d un échantillon si petit. I IC ne peut être interprété que si on suppose 
que la population générale est approximativement gaussienne. 

• Chaque sujet provient de la même population et chacun a été sélectionné in dé- 
pcndammont des autres. En d autres termes, sélectionner un sujet ne devrait pas 
modifier la probabilité de sélectionner n' importe quel autre. L'exemple de la pres- 
sion artérielle ne serait pas valide s'il y avait en réalité moins de 100 étudiants et 
que certains avaient été investigués 2 lois, il ne serait pas valide non plus si 
quelques étudiants étaient enfants de la même famille ou jumeaux (comme la 
pression artérielle est en partie déterminée par des facteurs génétiques, deux 
enfants de la même famille ont sans doute des pressions artérielles plus proches 
que deux personnes sélectionnées aléatoirement). 

Dans de nombreuses situations, ces hypothèses ne sont pas strictement respectées* 
Il peut arriver que les patients d une étude soient plus homogènes que ne le sont les 
patients de 1 entièreté de la population, Des mesures faites dans un laboratoire peuvent 
avoir une DS plus petite que des mesures faites dans d'autres laboratoires à d'autres 
moments. De façon plus générale, il est possible que la population qui nous intéresse 
vraiment soit plus diversifiée que ia population dont sont issues les données. Il se peut 
également que la population ne soit pas gaussienne Si ne fusse qu'une hypothèse n'est pas 
respectée, l'ÏC sera sans doute trop optimiste (trop étroit). Le véritable IC (tenant compte 
d'un quelconque écart par rapport aux hypothèses) est sans doute plus largo que celui qui a 
été calculé. 
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distribution en forme de cloche. Plus on augmente la taille de l'échantillon, plus la dis- 
tribution des moyennes d échantillons se rapproche d une distribution gaussienne parfaite, 

La distribution de la population importe peu. La distribution des moyennes échan- 
tillonnées sera approximativement gaussienne si la taille de l'échantillon est suffisamment 
grande, À quelle taille cela correspond-t-il ? La réponse est évidente : a cela dépend » ! Cela 
dépend de la définition du mot « approximativement » et de la distribution de la population. 
Même si la distribution de la population est vraiment étrange, un échantillon de 1 00 valeurs 
est suffisamment grand pour invoquer le théorème central limite. Si la distribution de la 
population est approximativement symétrique et unimodale (elle ressemble à une seule 
montagne et pas à une chaîne de montagnes), on peut invoquer le théorème central limite 
même si l'échantillon compte seulement une douzaine de valeurs. 

Quelle est la déviation (DS) de la distribution de moyennes d'échantillons ? Ce n'est 
pas la même chose que la DS de la population. Puisque les moyennes des échantillons sont 
distribuées de façon plus compacte que les valeurs dans la population, on s'attend à ce que 
la DS de la distribution des moyennes d'échantillons soit plus petite que la DS de la 
population. On s'attend aussi à ce qu elle dépende de la DS de la population et de la taille 
de l'échantillon, Si les valeurs varient beaucoup dans la population (grande DSI, les moyen- 
nes d’échantillons seront plus dispersées que si la population était très compacte (petite 
DS). Si on collecte des échantillons plus grands, les moyennes des échantillons seront plus 
proches les unes des autres et, par conséquent, la DS des moyennes échantillonnées sera 
plus petite. 

Le théorème central limite nous enseigne que la DS des moyennes échantillonnées 
égale la DS de la population divisée par la racine carrée de la taille de l'échantillon. C'est 
[ origine du rapport s/i/n dans l'équation 5.1. 



L’ERREUR STANDARD DE LA MOYENNE 


L'expression déviation standard des moyennes d'échantillons n'est pas très pratique. On a 
donc attribué un nom plus court à cette valeur : [erreur standard de la moyenne, abrégée ESM. 
On fait souvent référence à l'ESM en utilisant le terme d'erreur standard, omettant le mot 
moyenne mais le sous-entendant. Le terme est plutôt mal approprié, l'erreur standard de la 
moyenne n'ayant habituellement rien à voir avec des standards ni avec des erreurs. 

D'après le théorème central limite, l'ESM se calcule sur base de la DS de la popula- 
tion et de la taille de l’échantillon au moyen de l'équation 5,2. 

ESM = ^ (5.2) 

vn 

L’ESM quantifie la précision de la moyenne de l’échantillon. Une petite ESM signifie que la 
moyenne de l'échantillon est sans doute assez proche de la vraie moyenne de la population. 
Une grande ESM signifie que la moyenne de l'échantillon est probablement assez éloignée 
de la vraie moyenne de la population. 

Notons bien que l'ESM ne quantifie pas directement la dispersion ou la variabilité 
dans la population. Cest une erreur fréquente. Une petite ESM peut résulter davantage 
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* Nous pouvons penser aux sources de dispersion. La variabilité de la PA résulte de 
nombreuses variables génétiques et environnementales ainsi que d imprécisions 
dans les mesures. Lorsque la dispersion résulte d'une somme de nombreux fac- 
teurs. on s’attend à observer une distribution gaussienne ou au moins approxima- 
tivement gaussienne 33 . 

* Nous pouvons tester si une distribution de données est compatible avec une dis- 
tribution gaussienne en réalisant des calculs formels. Pour plus d'informations, il 
faut se renseigner sur le test de Kolmogorov-Smtmov dans un livre plus avancé. 

Que doit-on faire si la distribution des données s'écarte de façon importante d’une 
distribution gaussienne? Il a trois possibilités. 

* On peut transformer mathématiquement les valeurs pour transformer une popula- 
tion non gaussienne en une population gaussienne. Il faut transformer chaque 
valeur en son logarithme, son inverse ou sa racine carrée (ou encore une autre 
fonction). Cela peut paraître un peu curieux mais c'est une bonne méthode. Sou- 
vent. cette transformation est biologiquement ou chimiquement justifiée. Par 
exemple, il est souvent sensé, à Sa fois biologiquement et statistiquement, d expri- 
mer f acidité par le pH plutôt que par la concentration d'ions hydrogène, d expri- 
mer L efficacité d’un produit pharmaceutique en log(CËço) 1 ^ plutôt que par le Cë 50 
et d exprimer la fonction rénale par l'inverse de la concentration de créatinine 
plasmatique plutôt que par la concentration de créatinine plasmatique elle-même. 

» Nous pouvons nous reposer sur le théorème central limite et analyser de grands 
échantillons en utilisant des méthodes statistiques basées sur la distribution gaus- 
sienne même si les populations ne sont pas gaussiennes, Nous pouvons compter 
sur le théorème centrai limite si les deux conditions suivantes sont respectées : 
( 1 ) Nous faisons de l'inférence sur la moyenne de la population et pas sur les détails 
de la distribution elle-même (2) Soit les échantillons sont très grands, soit la 
population est approximativement gaussienne, 

* Nous pouvons utiliser des méthodes statistiques qui ne sont pas basées sur la 
distribution gaussienne. Par exemple, il est possible de calculer TIC à 95% d'une 
médiane sans faire aucune hypothèse sur la distribution de la population. Nous 
discuterons certaines de ces méthodes, appelées non paramétriques, plus loin dans 
le livre. 



L’INTERVALLE DE CONFIANCE D'UNE PROPORTION 
REVISITÉ 1 3 


Nous avons déjà rencontré l'équation permettant de calculer l' IC d'une proportion 
(équation 2.1). Elle est reprise dans l'équation 5.6. 

"il faut aussi supposer que tous ces facteurs ont approximativement le meme poids. 

1 2 Le CE^ est la concentration (Tun produit pharmaceutique necessaire pour obtenir b moitié de Y effet maximal, 
15 Cette partie est plus avancée que les autres. Elle peut être passée sans perdre le fil de l’exposé. 
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5. Vous devez être capables de passer d une DS à une ESM sans î'aîde d'un livre. 

6. Vous devez être capables d'interpréter les barres d'erreur présentées dans les gra- 
phiques ou les tableaux des articles publiés. 


1 . La figure 5.4 montre la distribution de probabilité du temps d'ouverture de canaux 
ioniques, La plupart des canaux restent ouverts pendant un temps très court et 
quelques-uns restent ouverts plus longtemps. Imaginez que vous mesurez le temps 
d ouverture de 10 canaux et que vous calculez le temps moyen. Vous répétez 
ensuite cette expérience de nombreuses fois. Quelle est la forme attendue de la 
distribution des moyennes de temps d'ouverture? 




Figurf 5A 


2. On a mesuré l'activité enzymatique de cellules en culture. L'expérience a été répé- 
tée trois jours différents et chaque jour, la mesure a été répétée trois fois dans des 
conditions expérimentales identiques. Le seul but de la répétition des expériences 
était de déterminer la valeur avec plus de précision. Les résultats rapportés repré- 
sentent I activité enzymatique en unités par minute par milligramme de protéine 
membranaire. 
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LES DONNEES DE SURVIE CENSUREES 


Dans l'exemple précédent, nous savions pour tous les sujets s'ils étaient décédés 
avant 36 mois ou s'ils avaient survécu plus de 36 mois {extrémité droite de notre courbe). 
Les données réelles sont rarement aussi simples. Dans la plupart des études de survie, des 
sujets survivants ne sont pas suivis pendant tout le laps de temps correspondant à l'entiè- 
reté de la courbe. Cela peut arriver dans deux situations : 

* Quelques personnes sont encore en vie à la fin de l'étude mais n'ont pas été suivies 
pendant tout le laps de temps couvert par l entièreté de la courbe. Beaucoup 
d'études enrôlent des patients pendant une période de plusieurs années. Les 
patients qui sont enrôlés tardivement ne sont pas suivis autant d’années que les 
patients qui sont enrôlés plus tôt. Imaginons une étude qui enrôle des patients 
entre 1986 et 1989 et qui se termine fin 1991 , Un patient A peut avoir été enrôlé au 
début de l'année 1989 et être toujours en vie à la fin de l'étude. Même si l'étude a 
duré 6 ans, nous savons seulement que le patient A a survécu au moins 3 ans. 

* Certains sortent de l’étude précocement. Ils peuvent avoir déménagé dans une 
autre ville ou s'être lassés des hôpitaux universitaires. Un patient B peut avoir 
été enrôlé en 1986 mais avoir déménagé dans une autre ville (et avoir cessé de 
suivre le protocole) en 1 988. Nous savons que ce sujet a survécu au moins 2 ans en 
suivant le protocole mais nous ne pouvons pas évaluer sa survie après cela. 

Dans les deux cas, nous savons que le sujet a survécu iusqu’à un certain moment 
mais nous n'avons aucune information utile sur ce qui s'est passé par la suite. L’informa- 
tion concernant ces patients est dite «censurée». Avant le moment de censure, nous 
savons qu'ils étaient en vie et qu'ils suivaient le protocole expérimental : ces sujets contri- 
buent donc à de l'information Intéressante. Dès qu'ils ont été censurés, nous ne pouvons 
plus utiliser aucune information les concernant. Soit nous n avons simplement pas d in- 
formation au-delà du jour de censure (parce que les données n'ont pas été ou ne pouvaient 
pas être collectées), soit nous avons l'information mais nous ne pouvons pas I utiliser 
(parce que le patient n a pas suivi plus longtemps le protocole expérimental). Le terme 
«censure » a une connotation négative. I] semble dire que le sujet a fait quelque chose de 
mal mais ce n'est pas le cas. Ce sont les données qui ont été censurées, pas le sujet ! 



TRACER UNE COURBE DE SURVIE 


ïl existe deux méthodes légèrement différentes pour tracer une courbe de survie. 
Dans la méthode actuarielle, 1 axe des X est divisé en intervalles réguliers, par exemple en 
mois ou en années et la survie est calculée pour chaque intervalle. Dans la méthode de 
Kaplan-Meier, la survie est recalculée chaque fois qu'un patient décède, 13 faut préférer 
cette méthode, sauf si le nombre de patients est énorme. Le terme d'analyse de tables de survie 
est utilisé de façon inconsistante et inclut d'habitude les deux méthodes. Il vaut mieux 
reconnaître les trois noms, 

La méthode de Kaplan-Meier suit une logique simple mais elle est fastidieuse. 
Puisque les calculs peuvent être réalisés par des logiciels informatiques, leurs détails ne 
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6, les courbes de survie 


75 



Fèguki 6.4 Survie médiane. la médiane est te percentile 50. Le temps de survie médian est le temps qui s'est 
écouté jusqu'à ce que la moitié des sujets soient morts et auquel ta moitié des sujets sont encore vivants. Il faut 
regarder au niveau de 50% de survivants pour déterm iner te Lempsde survie médian. Si moins de la moitié des 
sujets sont décédés à la fin de l'étude, il est m possible de déterminer la survie médiane. 


* Oi?ser^tii>ns indépendantes, La survie de n P importe quel sujet dans la population ne 
doit pas influencer la probabilité de survie de rs' importe quel autre sujet, 

* Critère entrée invariable. Les patients sont Inclus dans les études sur une période de 
plusieurs mois ou de plusieurs années, il est donc important dans ces études que 
les critères de départ ne changent pas au cours de la période d'enrôlement, ima- 
ginons une courbe de survie commençant en date du diagnostic de la première 
métastase d un cancer. Que se passerait-il si une amélioration de la technique 
diagnostique permettait de détecter les métastases plus précocement ? Même sans 
aucun changement dans le traitement ni dans l'histoire naturelle de la maladie, le 
temps de survie semblera augmenter (les patients décèdent au même âge mais, le 
diagnostic étant posé à un plus jeune âge. ils vivent, plus longtemps avec le diag- 
nostic). 

* Criréft? invariable pour définir te survie. Si la courbe représente graphiquement le temps 
jusqu'au décès, le critère final est assez clair. Si la courbe représente graphique- 
ment le temps jusqu'à un autre événement, il est crucial que l'événement soit 
évalué de façon identique tout au long de l'étude, 

* U temps de censure tiesi pas lié à ta survie. La survie des patients censurés doit être 
identique (en moyenne) à la survie de ceux qui ne le sont pas. Si de nombreux 
patients sont censurés, cette hypothèse est capitale pour garantir la validité des 
résultats. Il n'y a pas de raison de douter de cette hypothèse pour les patients en vie 
à la fin de l'étude. Le problème est différent avec les patients qui ont abandonné 
l'étude. Il faut se demander pourquoi les patients ont quitté I étude. Si la raison 
était liée à la survie, la courbe de survie ne serait pas juste, Une courbe de survie, 
par exemple, induirait en erreur si de nombreux patients étaient sortis de l'étude 
parce qu'ils étaient trop malades pour se rendre à la clinique ou parce qu'ils se 
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fusqu'à présent, nous avons seulement analysé des données provenant d un seul 
groupe. D'habitude, quand on analyse des données, on souhaite comparer deux groupes 
(ou davantage). Cette partie explique comment y parvenir en calculant des intervalles de 
confiance. Nous apprendrons pins tard comment comparer des groupes en calculant des P- 
valeurs et en déterminant la signification statistique. 
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LE CALCUL DE L’IC A 95 % DE LA DIFFERENCE ENTRE 
LES MOYENNES DE GROUPES NON APPARIÉS 17 


Afin de calculer I IC à 95% de la différence entre des moyennes, il faut d'abord 
calculer TES de la différence sur base des erreurs standards (ES) de chacun des deux 
groupes* ESM a et ESMb- Si les deux groupes sont de même taille, l'équation 7.1 permet 
de calculer E'ESM de la différence entre les moyennes des deux groupes : 

ES de la différence = JESM^ + ESMj; (7.1) 


Si les deux groupes sont de tailles inégales, une équation plus compliquée est 
nécessaire (7.2) puisque l'ESM du groupe le plus grand doit avoir plus de poids que l'ESM 
du groupe plus petit. L'équation se construit avec les DS (DS a et DS b ) et les tailles (n a et n b ) 
des deux échantillons: 


DS 


cuTTirmirvi? 



Q-DSj + Qib- l)-DSg 
n a + n b - 2 


ES de la différence — DScoiruuLuie 



(7-2) 


L'IC à 95 % de la différence entre tes moyennes (A) se calcule au moyen de F équa- 
tion 7. 3 : 

IC à 95% de la différence entre les moyennes: 

(A - t* ■ ES de la différence) à (A + 1 + ■ ES de la différence) 


dl = n a + n b “ 2 (7.3) 

Si on applique la première équation aux données de l’échantillon, 1 ES de la diffé- 
rence entre les deux moyennes vaut 30,0 mS/kg r ce qui est un peu plus grand que l'ESM de 
chacun des deux groupes. C'est logique puisque l'incertitude qui règne au sujet de la 
différence entre les moyennes est plus grande que celle qui règne au sujet de chacune 
des deux moyennes. En d’autres termes, les erreurs s'additionnent de sorte que la diffé- 
rence a une ES plus grande que chacune de ses composantes. 

Le nombre total de degré de liberté (dl) vaut 84 + 85-2 soit 167, La valeur cri- 
tique de t* pour autant de degrés de liberté est 1,96, L'ïC à 95% de la différence est 
78 ± 30,0 ■ 1,96 et s’étend donc de 19 à 137 ml/kg. Nous pouvons être sûrs à 95% que 
la réduction moyenne de la production de selles dans la population des nourrissons traités 
(en comparaison avec les nourrissons contrôles) se trouve dans cet intervalle. 

17 Cette partie contient des équations nécessaires pour effectuer les calculs statistiques soi-même. Elle peut être 
passée sans perdre le fil de l'exposé. 
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. La comparaison de groupes au moyen d'intervalles de confiance 


a) Que vaut PIC à 95% de la différence entre les niveaux moyens du facteur Y? 

b) Quelles hypothèses devez-vous faire pour répondre à cette question ? 

2. Pullan et colL ont étudié l'utilisation de nicotine transdermique pour traiter la 
colite ulcéreuse 20 . Le niveau de nicotine plasmatique de départ valait 0.5 ± 1.1 ng/ml 
(moyenne ± DS ; n = 35). Après 6 semaines de traitement, le niveau plasmatique 
valait 8,2 ± 7,1 ng/ml (n — 30). 

Calculez PIC à 95 % de l'augmentation du niveau de nicotine plasmatique. 
Quelles hypothèses Faites-vous? Sont-elles respectées? 

Si vous aviez accès à toutes les données, comment pourriez-vous les analyser ? 

3. Au cours de plusieurs expériences, vous mesurez le nombre de récepteurs dans des 
cellules en culture en présence et en l'absence d’une hormone (chaque expérience 
a donc son propre contrôle). Les expériences ont été réalisées à plusieurs mois 
d intervalle, Les cellules des différentes expériences avaient donc poussé dans des 
lots de sérums différents, Les résultats sont présentés dans le tableau suivant. 



Expérience 1 
Expérience 2 
Expérience 3 
Expérience 4 


Contrôle 


123 

64 

189 

265 


Hormone 


209 

103 

343 

485 


Comment résumeriez-vous et représente riez- vous graphiquement ces résultats ? 
Quel IC cal eu le riez- vous ? 

4. Pourquoi LES d une différence entre deux moyennes est plus grande que 3 ES de 
chacune de ces moyennes ? 


20 RD Pullan. J Rhodes, S Ganesh. et al Transdermal nicotine for tilcerative colins. N Engl J Med 330:81 1-815, 
1 994 . 
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LA DIFFÉRENCE ENTRE DEUX PROPORTIONS 


Une façon de résumer les données de l'exemple 8.1 est de calculer la différence 
entre les deux proportions. La maladie a progressé chez 28% des sujets traités par placebo 
et chez 16% des sujets traités par AZT. Dans notre échantillon, la différence vaut 
28% - 16% soit 12%. 

De façon plus générale, la différence entre deux proportions peut être calculée au 
moyen de l'équation 8.1 utilisant les variables A et D telles que définies dans le tableau 8.2. 
On appelle ce genre de tableau «tableau de contingence». 

À C 

Différence entre deux proportions = A = pj — - - — — (8.1) 

A Hh L3 C T U 

L'équation permettant de calculer TIC à 95% de la différence se trouve à la fin du chapitre. 
Dans cet exemple, ÏTC à 95 % de la différence va de 6,7 % à 1 7,3 %, Si nous supposons que 
nos sujets sont représentatifs de la population des adultes infectés par le VIH encore 
asymptomatiques, nous sommes sûrs à 95% que le traitement à P AZT diminuera l'inci- 
dence de la progression de la maladie d'une valeur comprise entre 6,7% et 17,3 %. Remar- 
quons que ces calculs traitent de la vraie différence entre les incidences et pas du change- 
ment relatif. Lorsqu’on étudie un facteur de risque susceptible d'augmenter le risque de 
maladie, la différence entre les deux incidences est appelée le « risque attribuable & . 

Tariiau 3L2 Tableau de contingence 


Malades Non malades Total 


Exposés ou traités A B A + B 

Non exposés ou placebo C D C + D 

Total A + C R + D A+B + C+ D 


m LE RISQUE RELATIF 

Intuitivement, on pense plus souvent au rapport de deux proportions qu’à leur 
différence. Ce rapport est appelé le risque relatif. Le risque relatif est le rapport des incidences 
(équation 8,2) 

A 

Risque relatif ® (8.2) 

P 2 L 

C+D 


Le terme «risque attribuable » a été défini de quatre façons différentes. Lorsqu’on rencontre ce terme dans des 
publications, il faut s'assurer qu'on sait à quoi les auteurs font référence. Pour plus d'informations sur le risque 
attribuable, il faut lire le chapitre 4 de HA Kahn, CT Sempos. Statistical Mcthods in Epid&rrtioiûgy. New York, 
Oxford Univereity Press, 1989. 
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LE RAPPORT DES COTES 



Dans i 'exemple de Y AZT, la cote de progression de la maladie chez les sujets traités 
à ['AZT vaut 039 et la cote de progression de la maladie chez les patients contrôles vaut 
039. On peut résumer les données en prenant le rapport de ces valeurs, appelé le rapport des 
cotes. En comparaison avec les patients contrôles, la cote de progression de la maladie chez 
les sujets traités par l'AZT vaut 0,19/0,39 soit 0,49, En d'autres termes, la cote de progres- 
sion de la maladie chez les patients traités à l'AZT vaut environ la moitié de celle des 
patients contrôles* 

De façon plus générale, la cote de maladie chez les patients exposés (ou traités} se 
calcule comme suit (équation 8,4) : 


Cote de maladie chez les exposés — 


A/ (A + B) 
B/ (A + B) 



Cote de maladie chez les non exposés — 


C/(C + D) 
D/(C + D) 




. Cote chez les exposes 

Rapport des cotes = — ; ; — 

Cote chez les non exposes 


A/B AD 

c7d“bc 


(8.5) 


Si une quelconque valeur de A a D vaut 0, on ne peut pas utiliser l'équation 8,5. 
Dans de telles situations, certains chercheurs ajoutent 0.5 à chacune des 4 valeurs A à D 
avant de calculer le rapport des cotes et son IC. 

L'équation nécessaire pour calculer 1 P 1C d'un rapport des cotes sera donnée plus 
loin dans le chapitre. Les calculs sont habituellement réalisés au moyen d un ordinateur. 
L IC du rapport des cotes de notre exemple s'étend approximativement de 036 h 0,67. 
L'interprétation ne devrait pas poser de problème. St l’échantillon est représentatif de 
l'ensemble de la population, nous pouvons être sûrs à 95% que le rapport des cotes de 
la population se trouve dans cer intervalle. 

La plupart des personnes trouvent le concept de risque relatif facile à comprendre 
maïs ils trouvent le rapport des cotes un peu déroutant. Lors de l'analyse d'études pros- 
pectives. transversales ou expérimentales, Ü n'y a pas d'avantage particulier à calculer un 
rapport des cotes. Comme nous le verrons dans le prochain chapitre, les rapports des cotes 
sont essentiels pour Lanalyse des études rétrospectives cas-témoins. 



LE RISQUE RELATIF DANS LES ÉTUDES DE SURVIE 

1 tTr?" ■. ’ : > ■ jT :^v ; 


Dans le chapitre 6, nous avons appris à représenter graphiquement une courbe de 
survie pour un groupe. Comment peut-on comparer la survie de deux groupes ? Calculer le 
risque relatif global est une façon de faire. Si le risque relatif vaut 2,1, cela signifie que le 
taux de décès des sujets d'un groupe vaut (en moyenne} 2. 1 fois celui de I autre groupe. 
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6. Au moyen d un livre et d une calculatrice, vous devez être capables de calculer TIC 
à 95 % d'un risque relatif ou d une différence entre deux proportions. 


EXERCICES 

1 , Le risque relatif de décès par cancer du poumon chez les fumeurs (en comparaison 
aux non-fumeurs) vaut environ 10, Le risque relatif de décès par maladies coro- 
nariennes chez les fumeurs vaut environ U, Dans une population où la mortalité 
chez les non-fumeurs est de 5/lÛÛÛOÜ par cancer du poumon et 1 70/100000 par 
maladies coronariennes, le tabac cause-l-ii plus de décès par cancer du poumon ou 
par maladies coronariennes? 

2, Goran-Larsson et coll se sont demandé si rhypermobîlité des articulations causait 
des symptômes chez les musiciens Os ont envoyé des questionnaires à de nom- 
breux musiciens et ont posé des questions sur thypermobilitédes articulations. les 
symptômes de douleur et de raideur. Ils ont posé des questions sur toutes les 
articulations mais cet exercice ne porte que sur les données qu’ils ont collectées 
au sujet des poignets. Parmi 96 musiciens avec des poignets hypermobiles, 5% 
présentaient des douleurs et des raideurs des poignets. Par contre, 18% des 
564 musiciens sans hypermobilité présentaient de tels symptômes. 

a) Est-ce une étude prospective, rétrospective ou transversale? 

b) Analysez les données de la façon la plus complète possible, 

3, Un même nombre de cellules (100 000 par ml) a été placé dans quatre flacons. 
Deux lignées de cellules ont été utilisées. Certains flacons ont été traités avec des 
substances pharmaceutiques, tandis que les autres n om été traités qu'avec Ladju- 
vant (contrôle), Les données reprises dans le tableau suivant correspondent aux 
nombres moyens de cellules (milliers par millilitre) après 24 heures. Analysez ces 
données de la façon la plus complète possible. Si vous aviez accès à toutes les don- 
nées originales, souhaiteriez-vous résumer les données autrement? Comment? 



Substance pharmaceutique Pas de substance pharmaceutique 


Lignée de cellules l 145 19R 

Lignée de cellules 2 • 256 356 


4. Cohen et ses collaborateurs ont étudié î'usage de la réanimation cardio-pulmonaire 
active (RCP) 28 . Dans la RCP standard, le réanimateur comprime le thorax de la 
victime pour forcer le cœur à pomper du sang vers le cerveau (et ailleurs) et ensuite 
relâche la pression pour permettre l'expansion du thorax. La RCP active se fait avec 

21 L Goran-Larsson, J Battra. G S Mudholkar, GD Lokkia, Benefits and disadvarttages of joint hypermobility 
among musicUns. N engl J Med 329:1079-1082, 1993. 

2H TJ Cohen, BG Goldner, PC Maecaro, AP Ardito, S Trazzera, MB Cohen. SR Dibs. A comparaison of active 
compression-décompression cardiopulmonary re suscitai on with standard cardiopulmonary resuscitation for car- 
diaç arrests occuring in the hospital N Engl J Med 329:1918-1921, 1993. 
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Si on introduisait ces nombres dans l'équation 8.2 pour calculer un risque relatif, la 
première étape consisterait à estimer le risque qu'une personne dont le chat a des puces 
contracte la maladie à 32/(32 + 4). Mais c'est un calcul inutile. H se trouve que les auteurs 
ont choisi d’étudier un nombre égal de cas et de témoins. Hs auraient pu choisir d'étudier 
deux fois plus de témoins. Dans ce cas, iis auraient probablement trouvé 8 personnes se 
souvenant de puces parmi les î 12. Le risque s'estimerait alors a 32/(32 -f- 8) et le risque 
relatif serait différent. Calculer le risque relatif dans des études cas-témoins conduit à un 
résultat insensé 



COMMENT INTERPRETER LE RAPPORT DES COTES? 


Comment pouvons-nous résumer les données d’une étude cas-témoins? La 
réponse est étonnante. Alors que l'équation du risque relatif ne s applique pas aux études 
cas-témoins, il est sensé de calculer le rapport des cotes comme dans les études prospecti- 
ves. De plus, si la maladie est assez rare (touche seulement un faible pourcentage de la 
population étudiée), alors le rapport des cotes calculé dans une étude cas-témoins sera 
approximativement égal au vrai risque relatif. C est une conclusion surprenante qui sera 
démontrée algébriquement plus loin. C'est une notion tellement importante qu'elle vaut la 
peine d être répétée et soulignée : st ta maladie est assez rare , ta rapport des cotes calculé dans une 
étude cas-témoins sera approximativement égal au vrai risque relatif. 

Dans cet exemple, le rapport des cotes vaut 17,3. Si nous supposons que la maladie 
des griffes du chat est rare parmi les propriétaires de chat 30 , nous pouvons conclure que les 
propriétaires de chat porteurs de puces sont environ 1 7.3 fois plus susceptibles d attraper la 
maladie des griffes du chat que les propriétaires de chat sans puce. Une équation permet- 
tant de calculer l'intervalle de confiance à 95 % sera présentée à la fin du chapitre. Dans cet 
exemple, l’TC à 95% du rapport des cotes s'étend de 5.5 à 54,6. Dans la population, nous 
pouvons être sûrs à 95 % que le vrai rapport des cotes se trouve quelque part entre 5,5 et 
54,6, Vu i importante largeur de cet intervalle, certains pourraient dire que cette étude est 
peu concluante. D'autres pourraient faire remarquer que, meme si le vrai rapport des cotes 
était proche de la borne inférieure de l’IC, il serait encore important (risque multiplié par 
cinq). Bien que l'étude soit trop petite pour déterminer le véritable rapport des cotes de 
façon très précise, elle montre clairement que le vrai rapport des cotes se trouve* avec une 
quasi certitude, loin de 1. 


30 Nous savons par d'autres données que c'est une hypothèse raisonnable. L’étude cos-témoins ne nous apprend 
rien sur le fait que la maladie des griffes du chat soit rare ou courante parmi les propriétaires de chat. Comme nous 
n'étudions que la population des propriétaires de chat, l’incidence de la maladie dans d’autres populations (ou la 
population générale) est hors propos. 
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uniformément il se peut qu'ils aient, par inadvertance, davantage insisté auprès 
des cas, 

# Les cas ont souffert de la maladie des grillés du chat. ïls étaient sans doute motivés 
à aider les chercheurs à en savoir plus sur la maladie. Il est simplement arrivé aux 
témoins de répondre au téléphone au mauvais moment. Ils n avaient probable- 
ment jamais entendu parler de la maladie des griffes du chat et leur principale 
motivation était sans doute de terminer l'interview aussi vite que possible. I! se 
peut donc que les cas et les témoins ne donnent pas une information aussi précise 
et détaillée, 

■ Les patients ont été enrôlés dans 1 étude uniquement par l'intermédiaire de leur 
médecin traitant Les personnes qui ne développèrent qu'une forme légère de la 
maladie et qui n'ont pas recherché de soins médicaux nont pas été incluses dans 
T étude. Toute personne malade ne cherche pas de soins médicaux. Cette étude 
sélectionne des personnes qui consultent un médecin lorsqu'elles sont légèrement 
malades. Ce critère de sélection n'a pas été appliqué aux témoins. 

• Les témoins ont été enrôlés dans l'étude uniquement s'ils étaient à leur domicile 
lorsque les chercheurs ont composé au hasard leur numéro de téléphone. Celte 
méthode sélectionne des personnes qui restent beaucoup à la maison et des per- 
sonnes qui ont plus d'une ligne téléphonique. Elle empêche la sélection des per- 
sonnes que n'ont pas le téléphone, qui voyagent beaucoup ou qui filtrent leurs 
appels avec des répondeurs automatiques. Aucun de ces critères de sélection n'a 
été appliqué aux cas. 

]] serait facile de concevoir une étude pour contourner quelques-uns des problèmes 
énumérés ci-dessus mais on introduirait probablement de nouveaux problèmes dans le 
processus. Nous ne voulons pas non plus trop apparier les cas et les témoins car nous 
risquerions d'apparier pour ïa variable d'intérêt (si l'appariement portait sur le fait que les 
chats avaient des puces ou non. Ils n'auraient pas pu se poser de questions sur l'association 
entre les puces et la maladie), il est habituellement possible de trouver des explications 
alternatives pour interpréter les données d'études cas-témoins et ces explications sont 
souvent plausibles. Voici cinq explications alternatives des données de l’étude de la mala- 
die des griffes du chat : 

* La maladie des griffes du chat est causée par un organisme propagé par les puces. 
C'est l’hypothèse à laquelle croient les chercheurs. 

* Les patients savent qu'ils ont attrapé la maladie de leur chat et ont donc une 
mémoire plus précise de leur chat. Puisqu'ils ont un intérêt personnel dans la 
maladie des griffes du chat, ils sont susceptibles de penser plus soigneusement 
aux réponses qu ils donneront aux questions des enquêteurs. Les deux groupes de 
chats peuvent avoir exactement autant de puces mais les patients sont plus sus- 
ceptibles de s'en souvenir que les témoins. 

• Les puces sont plus courantes dans les régions rurales de l'état et les chats des 
régions rurales ont plus tendance à se faire mordre par des tiques. Peut-être que tes 
tiques sont le véritable vecteur de 9a maladie. 

* Les témoins ont plus tendance à rester à la maison (et étaient plus souvent chez 
eux quand les chercheurs ont appelé, cfr ci-dessus), ils ont de meilleurs contacts 
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4, Vous devez être capables de distinguer, parmi les tableaux 2 x 2, ceux qui sont des 
tableaux de contingence de ceux qui ne le sont pas, 

5, Sans consulter de livre, vous devez être capables de calculer un rapport des cotes. 

6, Vous devez être capables de reconnaître des données pour lesquelles calculer le 
risque relatif n'a pas de sens* 

7, Avec î'airîe d'un livre et d une machine à calculer, vous devez être capables de 
calculer UC à 95% d‘un rapport des cotes. 

8, Vous devez être capables de reconnaître les données pour lesquelles une analyse 
pour données appariées est appropriée. 


EXERCICES 

L Lfn rapport des cotes peut-il Être plus grand que un ? Négatif ? Nul ? 

2, Le logarithme du rapport des cotes peut-il être plus grand que un ? Négatif? Nu! ? 

3. Gessner et ses collaborateurs ont étudié un excès de maladie dans une commu- 
nauté d'Alaska * s . Us avaient l'impression qu’une des deux réserves d'eau de la ville 
distribuait trop de fluor, conduisant à l'intoxication au fluor. Ils ont comparé 38 cm 
avec 50 témoins. Trente-trois cas se rappelaient avoir bu de l'eau provenant du 
système de distribution n°l alors que quatre témoins seulement avaient bu de î eau 
provenant de ce système. 

Analysez ces données de la façon qui vous semble appropriée. Formulez les hypo- 
thèses à respecter. 

Comment ces chercheurs auraient-ils pu mener une étude prospective pour tester 
leur hypothèse ? 



”BD Gessner, M Seller, Jf* Middaugh, GM Whitford, Acute flüorirfc poisoning from a public water System. 
N Engl J Med 33E>:95-99, 1994 
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UN EXEMPLE SIMPLE: LA PRESSION ARTERIELLE 
D’ÉTUDIANTS EN MÉDECINE 34 


On souhaite tester l'hypothèse selon laquelle la pression artérielle systolique dif- 
fère entre les étudiants en médecine de première et de deuxième année (EM1 et EM2 
respectivement). Le stress de la formation médicale augmente peut-être la pression arté- 
rielle. 


Mesurer la pression artérielle de toute la promotion représenterait beaucoup de 
travail pour une étude préliminaire. Au lieu de cela, nous sélectionnons au hasard cinq 
étudiants de chaque promotion et mesurons ieur pression artérielle systolique arrondie au 
5 mmHg les plus proches. 

EM1 : 120, 80, 90, 1 10,95 
EM 2 ; 105, 1 30. 145. 125, 1 15 

Dans un premier temps, il faut regarder les données. Un graphique peut aider. La ligure 10. 1 
représente les pressions artérielles de tous les individus. De toute évidence,, la pression 
artérielle a tendance a être plus basse chez les étudiants de première année que chez ceux 
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FictiRt 10.1 Données des échantillons représentées sur un graphique de dispersion en colonnes. Chaque 
carré représente la pression artérielle systolique d'un étudiant de première année (EM1). Chaque triangle 
représente la pression artérielle systolique d'un étudiant de deuxième année (EM2). 


34 Nous avons déjà rencontré ces données simulées dans Pexemple 5.2 et nous les retrouverons encore plus loin 
dans le livre. 
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• Lorsqu on compare deux courbes de survie, Fhypothèse nulle consiste à dire que 
les deux courbes de survie sont les mêmes dans la population. 


DE MAUVAISES INTERPRETATIONS FREQUENTES 
DE LA P-VALEUR 

La P-valeur est facilement mal interprétée. Le meilleur moyen d'éviter cela est de 
garder à l'esprit ce quelle signifie: la P-valeur est la probabilité d'obtenir une différence 
aussi grande (ou plus grande) que celle observée si f hypothèse nulle est vraiment correcte. 
Donc, une P-valeur de Û.Ü3 signifie que, même si les deux populations avaient les mêmes 
moyennes. 3 % des études semblables à celle qui a été menée rapporteraient une différence 
au moins aussi grande que celle qui a été observée. 

Il est très tentant d extrapoler et de dire, « Oh, et bien, si il y a seulement 3 % de 
chance que la différence ait été causée par le hasard, alors, il doit y avoir 97 % de chance 
qu elle résulte d une véritable différence î » C'est une erreur ! Ce quon peut dire c est que si 
l'hypothèse nulle était vraie, 97% des études aboutiraient à une différence plus petite que 
celle qui a été observée et 3 % des études aboutiraient à une différence aussi grande ou plus 
grande. 

Le calcul de la P-valeur suppose que f hypothèse nulle est correcte. La P-valeur ne 
peut pas dire si c'est correct. La P-valeur nous dit à quel point il serait rare d'observer une 
différence aussi grande ou plus grande que celle qui a été observée si l'hypothèse nulle était 
vraie. Le scientifique doit répondre à la question suivante: le résultat est-il tellement peu 
probable que fhypothèse nulle peu! être écartée? 



LES P-VALEURS UNILATERALES VERSUS 
BILATÉRALES 


Une P-valeur bilatérale est la probabilité (supposant que l'hypothèse nulle est 
vraie) d'observer dans un échantillon aléatoire une différence au moins aussi grande que 
la différence observée, quel que soit le groupe ayant la plus grande moyenne. Une P-valeur 
unilatérale, par contre, est la probabilité (supposant que fhypothèse nulle est vraie) d’ob- 
server dans un échantillon aléatoire une différence au moins aussi grande que la différence 
observée et que ce soit le groupe spécifié au préalable dans fhypothèse de recherche qui ait 
la plus grande moyenne. 

Si la différence observée va dans le sens prévu par [ hypothèse de recherche, la P- 
valeur unilatérale vaut la moitié de la P-valeur bilatérale 35 . Les termes P-valeur unilatérale 
ou bilatérale ont la même signification que les termes une direction ou deux directions parfois 
utilisés. 


il existe des exceptions, comme le test exact de Fisher. 
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EXEMPLE 10 . 2 . LA COMPARAISON DE DEUX 
PROPORTIONS DANS UNE ÉTUDE CAS-TÉMOINS 

Il s'agit d'une étude cas-témoins investiguant lassociation entre les puces et la 
maladie des griffes du chat. Les résultats ont été présentés dans le tableau 9.1 , 

Le rapport des cotes vaut L7,3. Nous voulons calculer une P-valeur, L'hypothèse 
nulle consiste à dire quil n’y a pas d'association entre les puces et la maladie des griffes du 
chat, que les chats des cas sont tout aussi susceptibles d'avoir des puces que les chats des 
témoins. La P-valeur bilatérale répond à cette question; si I hypothèse nulle est vraie, 
quelle est la probabilité de choisir aléatoirement des sujets de sorte que le rapport des 
cotes soit égal ou plus grand que 17,3 ou égal ou plus petit que 0,058, i' inverse de 1 7,3 ? 

Pour calculer une F -valeur, nous pourrions utiliser le test exact de Fisher ou le test 
du chi-carré. Les memes méthodes sont utilisées pour analyser des données d'études 
prospectives et d'études cas-témoins. Si un ordinateur réalise le travail, le test exact de 
Fisher sera le meilleur choix. Les résultats obtenus avec Instat sont présentés dans le 
tableau 10.2. 

La P-valeur est de nouveau inférieure à 0,0001 . S'il n y a pas d'association entre les 
puces et la maladie des griffes du chat dans la population, il y a moins de 0,0 1 % de chance 
de tirer au hasard des sujets et de trouver une telle association. 

Pour interpréter la P-valeur d’une étude cas-témoins, les hypothèses suivantes 
doivent être respectées : 

* Les cas et les témoins sont sélectionnés aléatoirement dans leur population res- 
pective ou sont au moins représentatifs de ces populations, 

* Chaque sujet a été sélectionné indépendamment des autres. Choisir un sujet ne 
devrait pas influencer la probabilité de choisir n'importe quel autre 

* À l'exception de 1 absence de la maladie, les témoins ne diffèrent systématiquement 
des cas sur aucun point. Il est très difficile d’être sûr que cette hypothèse soit 
respectée. 



Tabieau 10.2 Résultats de l'exemple 10.2 obtenus avec instat 


Test exact de Ffeher 


La P-valeur bilatérale est < 0,0001, ce qui considère comme très hautement significatif. 
IJ y a une association significative entre lignes et colonnes. 

Rapport des cotes = 17,333 

intervalle de confiance à 95%: 5,506 à 54,563 len utilisant ! approximation de Woolf) 
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Comme on s'y attend, F hypothèse nulle consiste à dire que les deux populations 
ont des courbes de survie identiques et que la différence observée dans nos échantillons est 
due au hasard. En d'autres termes, l'hypothèse nulle consiste à dire que le traitement par 
trois médicaments n'est pas meilleur (et n’est pas plus mauvais) que le traitement par deux 
médicaments pour prévenir les RGCH, La P-valeur du test du log-rank répond à la question 
suivante: si l'hypothèse nulle est vraie, quelle est la probabilité d'obtenir des courbes de 
survie aussi différentes avec des sujets sélectionnés aléatoirement? 

Les calculs sont assez compliqués et devraient être laissés aux logiciels informati- 
ques. Les auteurs rapportent une P-valeur de 0,02. St l'ajout d'un troisième médicament ne 
modifiait pas le développement de RGCH, on ne constaterait une telle différence entre les 
courbes de survie que dans 2% des études de cette rallie. 

Nous avons déjà appris les hypothèses qui devaient être respectées pour interpréter 
une courbe de survie dans le chapitre 6, Le test du log-rank dépend des mêmes hypothèses 
(reprises ci-dessous) : 

* Les sujets sont représentatifs de l'entièreté des bénéficiaires de greffe de moelle 
osseuse. 

* Les sujets ont été choisis indépendamment 

* Critères invariables. Les critères d'inclusion et la définition de la survie doivent être 
constants tout au long de Tétude. 

» La survie des sujets censurés devrait être la même, en moyenne, que la survie des 
autres sujets. 

Les données de la figure 10.3 ne montrent qu’une seule réponse — le délai de 
survenue d'un RGCH, Les chercheurs ont aussi comparé d'autres variables, comme les 
fonctions rénale et hépatique, le temps de survie et la récidive de leucémie. L'analyse de 
toutes ces données suggère que l'ajout du troisième médicament aide à prévenir les RGCH 
sans causer d'autre problème La recommandation d'une association thérapeutique de 
trois médicaments par les auteurs est basée sur l'analyse de toutes ces variables et pas 
seulement sur les courbes de survie. 


RESUME 

La plupart de tests statistiques calculent une P-valeur. Même sans connaître les 
détails de tous les tests, il est essentiel que toute personne lisant la littérature biomédicale 
comprenne ce qu'est une P-valeur {et ce qu elle n'est pas). Une P-valeur est simplement 
une probabilité qui répond à la question suivante: si l'hypothèse nulle est vraie (c'est-à- 
dire, si il n'y a pas de différence entre les populations), quelle est la probabilité qu'un 
échantillonnage aléatoire (compte tenu de la taille d'échantillon utilisée) aboutisse à 
une différence aussi grande ou plus grande que celle observée? 
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5. Si la P-valeur est inférieure à o, conclure que la différence est statistiquement si^m- 
ficmive et décider de rejeter l'hypothèse nulle, Dans Je cas contraire, conclure que la 
différence n'est pas mtisfiqwemem significative et décider de ne pas rejeter Ihypothèse 
nulle. 

Remarquons que les statisticiens utilisent 3e terme test d'hypothèse d'une façon tout 
à fait différente des scientifiques Tester des hypothèses scientifiques exige un travail assidu 
impliquant de nombreux types d'étude. Pour tester une nouvelle hypothèse, il est souvent 
nécessaire de concevoir une nouvelle méthodologie expérimentale et de concevoir des 
expériences contrôles ingénieuses. 93 est par contre simple de tester une hypothèse statis- 
tique, ï! suffit de vérifier si une P-valeur se trouve au-dessus ou en dessous d'un seuil. 

Passer d une P-valeur à 3a conclusion & significatif » ou « non significatif» rappelle 
les critiques de cinéma Siskel et Erbert. Dans leurs critiques écrites, ils évaluent chaque film 
sur une échelle (par exemple, trois étoiles et demi ou B— ). C'est analogue à une P-valeur, 
C'est une manière concise de résumer leurs opinions sur le film. En critiquant des films à la 
télévision, ils prennent une décision pour le téléspectateur ; « allez voir ce film ou n'y allez 
pas », 

La terminologie des tests d hypothèse est plus Facile à comprendre dans le cadre 
des contrôles de qualité. Par exemple, supposons que nous dirigeons une brasserie et que 
nous avons un entrepôt rempli de la dernière cuvée de bière. Avant de vendre cette cuvée, 
nous devons vérifier que la cuvée répond à certains standards de qualité. Plutôt que de 
tester toutes les bières de l'entrepôt (la population), nous choisissons aléatoirement quel- 
ques bouteilles (l'échantillon) pour les comparer à un «gold standard». Les résultats 
peuvent se résumer par une P-valeur qui répond à la question suivante: si la nouvelle 
cuvée de bière est identique à 3a cuvée standard, quelle est 3a probabilité qu'un échantillon 
aléatoire de bouteilles soit aussi différent du standard que ce qui a été réellement observé? 
Si la P-valeur est plus petite que o (habituellement 0,05), on rejette l'hypothèse nulle et 
donc 9a cuvée de bière (ou on réalise au moins d’autres tests pour trouver le problème L Si la 
P-valeur est plus grande que a, on ne rejette pas l’hypothèse nulle ni la cuvée. 



LES AVANTAGES ET LES INCONVÉNIENTS DE 


L'EXPRESSION «STATISTIQUEMENT SIGNIFICATIF » 


Utiliser I expression statistiquement sign(/rcatjf présente trois avantages: 

• Dans certaines situations, il est nécessaire d arriver à une décision tranchée à partir 
d une seule étude. On prendra une décision si les résultats sont significatifs et 
l'autre si les résultats sont non significatifs. 

• Avec certains tests statistiques, il est difficile voire impossible d’obtenir une P- 
valeur exacte mais il est possible de déterminer si la P-valeur dépasse a ou non. 

• Les gens n'aiment pas l'ambiguïté, La conclusion « les résultats sont statistique- 
ment significatifs» est plus satisfaisante que la conclusion «un échantillonnage 
aléatoire produirait une différence au moins aussi grande dans 3 % des expériences 
si 3 hypothèse nulle était vraie », 
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* Nous dirigeons la phase [Il de l'essai clinique d’un médicament pour le traitement 
d une maladie pour laquelle il n’existe pas de bon traitement. Si les résultats sont 
significatifs, nous commercialiserons le médicament. Si les résultats ne sont pas 
significatifs, les travaux sur ce médicament cesseront. Dans ce cas, une erreur de 
type I consistera à traiter de futurs patients avec un médicament Inefficace, au lieu 
de ne pas les traiter. Une erreur de type II reviendra à suspendre le développement 
d’un bon médicament pour une maladie qu'on ne peut actuellement pas traiter. Ici, 
nous voulons fixer a à une valeur élevée parce qu’une erreur de type 1 ne porte pas 
à conséquences mais une erreur de type 11 serait inacceptable. On pourrait fixer a à 
0 , 1 . 

Ce chapitre apporte volontairement peu de précisions sur les erreurs de type II et 
n'explique pas comment calculer cette probabilité. Nous apprendrons à le faire dans les 
chapitres 23 et 27. 

Continuons notre analogie entre la signification statistique et le système juridique. 
L équilibre entre erreur de type l et erreur de type II dépend du type de procès. Aux États- 
Unis (et dans beaucoup d’autres pays), un accusé dans une affaire criminelle est présumé 
innocent jusqu à ce qu’il soit prouvé coupable «sans le moindre doute bien fondé». Ce 
système repose sur la conviction qu’il est préférable de laisser de nombreuses personnes 
coupables en liberté que de condamner à tort une personne innocente. Le système est 
conçu de façon à éviter les erreurs de type ï dans les affaires criminelles, même aux dépens 
de nombreuses erreurs de type IL On pourrait dire que a est fixé à une valeur très basse. 
Dans les affaires civiles, la cour ou le jury se prononce en faveur du plaignant si les preuves 
montrent que le plaignant « est plus susceptible d être en droit que de ne pas [ être », L'idée 
est que se prononcer à tort pour le plaignant n'est pas pire que de se prononcer à tort pour 
l’accusé. Le système cherche à égaliser les risques d'erreurs de type 1 et de type H dans les 
affaires civiles. 


LA RELATION ENTRE a ET LES P-VALEURS 

La P-valeur et a ont un rapport étroit. On calcule une P-valeur sur base des 
données. On fixe préalablement a sur base des conséquences des erreurs de type 1 et de 
type II a est la P-valeur seuil sous laquelle une différence est appelée statistiquement 
significative. 




LA RELATION ENTRE a ET LES INTERVALLES 
DE CONFIANCE 


Bien que les intervalles de confiance (JC) et les P-valeurs soient présentées dans des 
parties différentes de ce livre, les deux sont étroitement liés. Ils sont tous deux basés sur les 
mêmes hypothèses et îes mêmes principes statistiques. Il faut se demander si NC à 95 % 
contient la valeur énoncée dans l’hypothèse nulle. Si on compare deux moyennes, il faut se 
demander si NC a 95 % de la différence entre les moyennes contient 0. Si on analyse une 
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DES RESULTATS «HAUTEMENT SIGNIFICATIFS» 


Intuitivement, nous pourrions penser quune P-vaieur égale à 0,004 est plus signi- 
ficative qu'une P-valeur égale à 0,04, Au sens strict des définitions des termes, ce n'est pas 
correct. Une fois qu une valeur a été fixée pour a. un résultat est soit significatif soit non 
significatif Que la P-valeur soit très proche de a ou très éloignée n'a aucune importance. 
De nombreux statisticiens sont partisans de cette idée et pensent que le mot significatif ne 
devrait jamais être précédé d'un adjectif La plupart des scientifiques sont moins stricts et 
mentionnent des résultats très significatifs ou hautement significatifs lorsque la P-valeur est 
minuscule. 

Pour la représentation graphique de P-valeurs, les chercheurs utilisent communé- 
ment une échelle de type «guide Michelin ». * P < 0,05 (significatif), ** P < 0,01 (haute- 
ment significatif). *** P < 0,001 (extrêmement significatif). Lorsqu’on lit ce genre de gra- 
phique. il faut connaître la légende des symboles puisque que la valeur seuil varie en 
fonction des chercheurs. 



LES P-VALEURS LIMITES 


Si nous suivons le modèle strict des tests d'hypothèse statistique et fixons a à sa 
valeur conventionnelle de 0,05, alors, une P-valeur de 0,049 indique une différence signi- 
ficative et une P-valeur de 0,051 indique une différence non significative. Cette distinction 
arbitraire est inévitable puisque tout l'intérêt de T usage du terme statistiquement significatifs 
est d arriver à une conclusion tranchée dans toute étude sans exception. 

Plutôt que de regarder uniquement si le résultat est significatif ou non, il vaut 
mieux regarder la véritable P-valeur. De cette Façon, nous saurons si la P-valeur est proche 
ou éloignée de a, Lorsqu'une P-vaîeur est juste un peu plus grande que a, certains scien- 
tifiques qualifient les résultats de marginalement significatifs ou à la limite de fa signification. 

Quand la P-valeur bilatérale est comprise entre 0,05 et 0,10, il est tentant de passer 
à une P-valeur unilatérale. La P-valeur unilatérale vaut la moitié de la P-valeur bilatérale et 
sera donc plus petite que 0,05. Les résultats deviennent significatifs comme par magie! 
Évidemment, ce n'est pas une raison adéquate pour choisir une P-valeur unilatérale ! il faut 
Faire ce choix avant de collecter les données! 

Un Façon de s en sortir avec une P-valeur limite serait de choisir entre trois déci- 
sions plutôt qu'entre deux. Plutôt que de décider si une différence est significative ou non 
significative, ajoutons une catégorie intermédiaire: non concluante. Cette approche n'est 
d'ordinaire pas utilisée. 


LE TERME «NON SIGNIFICATIF» 


Si la P-valeur est plus grande qu une valeur a préalablement fixée, on dit que la 
différence est non significative. Cela signifie que les données ne sont pas assez puissantes 
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Les chiffres sont propres à cette étude mais ie principe est universel* Toutes les 
études ont très peu de puissance pour détecter de minuscules différences et une puissance 
énorme pour détecter de grandes différences. Si on augmente le nombre de sujets, la 
puissance augmente. 

Comme nous pouvons le constater, les calculs de puissance peuvent aider à inter- 
préter des résultats non significatifs. Dans ia littérature biomédicale, cependant, on ren- 
contre rarement des calculs de puissance dans les articles qui présentent des résultats non 
significatifs. Cest en partie une affaire de tradition et en partie parce qu'il est difficile de 
définir la plus petite différence ou le plus petit risque relatif qu on croit important. 


RESUME 

Un résultat est statistiquement significatif quand la P-valeur est plus petite qu une 
valeur préalablement fixée de q. Cela signifie que les résultats seraient surprenants si 
l'hypothèse nulle était vraie. L’usage statistique du mot significatif est assez différent de 
l'usage habituel de ce mot. Des résultats statistiquement significatifs peuvent être ou ne pas 
être scientifiquement ou cliniquement intéressants ou importants. 

Des résultats statistiquement non significatifs signifient que les résultats ne sont 
pas incompatibles avec l'hypothèse nulle. Cela ne veut pas dire que ! hypothèse nulle est 
vraie. Lors de l'interprétation de résultats non significatifs, il peut être utile de regarder 
l’étendue de fTC et de calculer la puissance de l'étude ou sa capacité à trouver un résultat 
significatif si les populations sont réellement différentes (avec une différence dont la taille 
est définie). 
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Tabuau 13.1 Probabilité d'une petite P-valeur lorsqu'on teste de nombreuses hypothèses Huiles 


Nnmlïrf d'hypûltî«ek 
fiulta indrptfnfjnm \H\ 



10 » Mo m 


10% H% 19% 23% 2b% 501 14% 17% 40% 64% 92% 99% 


Probabilité IP' | d'obte- 
nir au moins une 
P-valeur inferieure à 
0.05 par hasard 

a* (Pour garder un a ÛJÜ253 0.0170 0.0127 0.0102 0.0085 0,0073 0.0004 0,0057 0..0051 0.0026 0.0010 0.0005 
général à 0,05. U ne 
faut admettre qu'une 
P'valetir est signifier 
due que si elle est infé- 
rieure à cette valeur) 


P* = 1 - 0,9 5 N 
et* — 1 — Q,95 (| W 

Ce tableau suppose qu r a est fixé à sa valeur habituelle de 0,05. Pour calculer cette table pour d'autres valeurs, il 
suffit de remplacer *0,95 * dans les deux équations par « (1 - a) ». 


Si on ne dispose pas de ce tableau, il existe un moyen abrégé d’évaluer approxi- 
mativement la valeur de la ligne du bas: il suffît de diviser 0,05 par 3e nombre de compa- 
raisons. Dans cet exemple, le seuil est 0,05/3 soit 0,017 — la même valeur que celle du 
tableau, jusqu'à trois décimales. Si on testait 7 hypothèses, on calculerait par la méthode 
abrégée un seuil de 0,05/7 soit 0,0071 (qui est proche de la valeur exacte de 0,0073 du 
tableau). Si on fait plus de 10 comparaisons, cette méthode abrégée perd son utilité. 



CROUPES MULTIPLES 



Exemple 1 3.5 


Hettand et ses collaborateurs se sont intéressés aux changements hormonaux des 
coureuses 1 * 2 . Parmi d'autres investigations, ils ont mesuré le niveau d'hormone luthéîni- 
santé (LH) chez des femmes non coureuses, des coureuses en amateur et des coureuses 
d'élite. Les niveaux hormonaux n'étant pas gaussiens, les chercheurs ont transformé leurs 
données en logarithmes de la concentration et ont effectué toutes les analyses sur les 
données transformées. 


Même si cela paraît un peu douteux, c'est une bonne démarche à suivre puisque 
cela rend la population plus proche d'une distribution gaussienne. Les données sont pré- 
sentées dans le tableau 13,2, 


42 ML Hetland, J Haarbo, € Christiansen, T Larsen. Running in duces menstmal disturbances but bone mass as 
unaffected* except in ümenorrheic women. Am J Med 95:53-60, 1993. 
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entre les deux courbes de survie était statistiquement significative avec une P-valeur infé- 
rieure à 0,025, 

S'il s agissait d'une étude réelle, il serait tentant de conclure que îe traitement B est 
supérieur pour les patients les plus malades et de recommander le traitement B à ces 
patients dans l'avenir. Mais il ne s'agissait pas d'une véritable étude et les deux # traite- 
ments » reflétaient seulement une assignation aléatoire des patients, Les deux traitements 
étaient identiques; la différence observée était donc indubitablement liée au hasard. Il n'est 
pas surprenant que les auteurs aient trouvé une P-valeur basse parmi ies six comparaisons 
faites. D'après le tableau 1 3.1, il y a 26% de chance qu’une comparaison parmi six compa- 
raisons indépendantes ait une P-valeur inférieure à 0,05 même si toutes les hypothèses 
nulles sont vraies. Pour réduire le risque général d'erreur de type 1 à 0,05, il faut réduire a à 
0,0085 quand on compare six groupes. 

Ce st un problème difficile qui se présente souvent, Il faut se méfier des analyses de 
multiples sous-groupes car on risque fort de rencontrer des petites P-vaîeurs, même si 
toutes les hypothèses nulles sont vraies. 



COMPARAISONS MULTIPLES ET DRAGAGE 
DES DONNÉES 


Dans tous les exemples de ce chapitre, nous avons pu tenir compte de toutes les 
comparaisons multiples parce que nous connaissions toutes les comparaisons que les 
chercheurs avaient faites. Nous serions complètement trompés (et tirerions la mauvaise 
conclusion) si les chercheurs avaient fait de nombreuses comparaisons mais n'avaient 
publié que les quelques comparaisons significatives. Si l'hypothèse nulle est vraie, une 
P-valeur basse indique qu'une coïncidence rare est survenue. Mais on ne peut évaluer la 
rareté d'une coïncidence que si on sait combien de comparaisons différentes ont été laites. 
Comme nous l'avons vu, si on teste de nombreuses hypothèses nulles, la chance d'observer 
au moins une P-valeur significative est bien plus grande que 5%. Par exemple, si on teste 
100 hypothèses nulles indépendantes qui sont toutes vraies, nous avons 99% de chance 
d'obtenir au moins une P-valeur significative. Nous serons complètement trompés si les 
chercheurs nous montrent la P-valeur significative et ne nous parlent pas des autres. 

Pour éviter cette situation, les chercheurs devraient suivre ces règles : 

• Les analyses doivent être planifiées avant la collecte des données, 

* Tous les plans d'analyses devraient être établis consciencieusement, rapportés et 

respectés. 

Les règles sont habituellement suivies religieusement dans les grands essais clini- 
ques, particulièrement lorsque les données vont être réexaminées par la Food and Drug 
Administration. Mais ces règles sont souvent ignorées dans des études préliminaires plus 
informelles et dans la recherche en laboratoire. Dans de nombreuses situations, les cher- 
cheurs n'ont jamais réfléchi à la façon de réaliser tes analyses avant de parcourir les 
données. Souvent, regarder les données suggère de nouvelles hypothèses à tester. 

Il est difficile de savoir ce qu'il faut faire des analyses qui ne respectent pas ces 
règles. Si les chercheurs n’avaient pas décidé les hypothèses à lester avant de regarder leurs 
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Avis aux scientifiques en recherche fondamentale : i! ne faut pas passer ce chapitre, 
même s'il paraît trop « clinique ». Ce chapitre monte le décor nécessaire à la discussion des 
deux chapitres suivants. 

Quel est le rapport entre des tests diagnostiques et des P-vaîeurs ? Apprendre à 
interpréter des tests diagnostiques « positifs » et « négatifs » nous aidera à comprendre 
^interprétation des tests statistiques «significatifs » et « non significatifs ». 


LA PRÉCISION D’UN TEST DIAGNOSTIQUE QUALITATIF 

, ■ ~ ■ ~ _ H p 


Considérons tout d'abord un test qui apporte une réponse simple ; positif ou néga- 
ti f. Les résultats peuvent être présentés dans on tableau de contingence 2x2 
(tableau 14. i). Les lignes représentent le résultat du test (positif ou négatif) et les colonnes 
indiquent la présence ou I absence de La maladie (information obtenue sur base d une autre 
méthode parfaitement exacte, sans doute le test meilleur test de l'époque}. Si le test est 
« positif», il peut s'agir d un test vraiment positif (vrai positif, VP} ou d'un test faussement 
positif (faux positif, FP) chez une personne qui n'a pas la maladie en question. Si le test est 
« négatif*, il peut s'agir d’un test vraiment négatif (vrai négatif, VN) ou d'un test fausse- 
ment négatif (faux négatif, FN) chez une personne atteinte de la maladie. 
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^ à_ 

Résultat du test 



Résultat du test 


Ficuhe 14.3 L'effet de fa prèvalenee sur la valeur prédictive du test. Dans les figures 14.1 et 14.2, les deux 
courbes avaient la même surface, suggérant que la moitié de la population testée souffrait de ia maladie, La 
partie gauche de cette figure montre les résultats obtenus dans le cas d'une prévalence de 20% alors que la 
partie droite de l image montre les résultats obtenus dans le cas d une prèvalenee de 80%. La proportion de 
tests positifs qui sont faussement positifs est plus importante dans la partie gauche, La proportion de tests 
négatifs qui sont faussement négatifs est plus importante dans la partie droite. 


La sensibilité et la spécificité sont les caractéristiques du test. Les valeurs prédicti- 
ves positive et négative, par contre, sont déterminées par les caractéristiques du test ainsi 
que par la prévalence de la maladie dans la population étudiée. Plus la prévalence est faible, 
plus le ratio des vrais positifs sur les faux positifs est bas. 

Revenons à Ea figure 14.2 Les deux courbes ont la même surface suggérant qu’il y a 
autant de malades que de non malades parmi les personnes soumises au test. En d autres 
termes, la figure 14.2 suppose que la prévalence est de 50%. Dans la figure 1 4.3, la pré- 
valence passe à 20 % (image de gauche) ou à 80 % (image de droite). Comme auparavant, la 
courbe continue représente les personnes saines et ta courbe discontinue les malades. Tout 
résultat situé à droite de la ligne verticale pointillée est considéré comme positif. Il peut 
s’agir de vrais positifs (partie de la surface se situant en dessous de la courbe discontinue) 
ou de faux positifs (partie de la surface se situant en dessous de la courbe continue). 

Les valeurs prédictives dépendent de la prèvalenee de la maladie. Une bien plus 
grande proportion de tests positifs sont des faux positifs dans la partie gauche de la figure 
que dans la partie droite. Par conséquent, la valeur prédictive dun test positif est plus faible 
dans la partie gauche. Inversement, une bien plus petite proportion des tests négatifs sont 
des taux négatifs et par conséquent, la valeur prédictive d un test négatif est bien plus 
grande dans la partie gauche. 



LE CALCUL DE LA VALEUR PREDICTIVE D'UN TEST 
POSITIF OU NÉGATIF 


La porphyrie aiguë intermittente est une maladie autosomique dominante difficile 
à diagnostiquer sur base de critères cliniques, Le diagnostic peut être posé en cas de 
diminution de l'activité de ia porphobïlmogène désaminase. Mais l’activité de cet enzyme 
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Tarifau 14.6 Porphyrie, exemple 0 



< 79 unités 
> 79 unités 
Total 


Maladie présenté 

Maladie absente 

Total 

219 

2 

221 

281 

498 

779 

500 

5ÜÜ 

1000 


valeur basse n'est pas normale, un plus faible niveau d'activité enzymatique est associé à 
une sensibilité plus faible et une spécUlcité supérieure. Peu de malades et très peu de sujets 
normaux présentent un niveau d'activité enzymatique aussi bas. Pour ce niveau f la sensi- 
bilité vaut 43,8% et la spécificité 99,5%. Si on examinait 1000 frères et soeurs de patients 
atteints de porphyrie. on s'attendrait à observer les résultats présentés dans le tableau 14,6, 

On trouverait seulement 221 personnes avec un niveau enzymatique aussi bas 
parmi lesquelles 219 auraient la maladie. La valeur prédictive d'un test positif vaudrait 
219/222 ou 98,6%. Comme on pouvait s'y attendre, une activité enzymatique plus faible 
(un résultat de test plus anormal) a une valeur prédictive plus élevée. 



Dans ces exemples, il a fallu parcourir plusieurs étapes pour calculer les valeurs 
prédictives à l’aide des tableaux. Ces étapes peuvent être intégrées dans une unique équa- 
tion formulée par Thomas Bayes, un pasteur anglais qui a développé les mathématiques de 
la probabilité conditionnelle à la fin du XVllf siècle. L’équation peut s écrire en termes de 
probabilité ou de cotes mais I équation exprimée en termes de cotes est plus simple. Il faut 
donc se remémorer la différence entre les probabilités et les cotes avant d’apprendre le 
théorème de Bayes, 



UNE RÉVISION DES PROBABILITÉS ET DES COTES 


Une vraisemblance peut s'exprimer en termes de probabilité ou de cote. 


* La probabilité qu'un événement se réalise est la proportion de fois où Ton s'attend 
à voir cet événement se réaliser au cours de plusieurs essais. 


* La cote est définie comme la probabilité que l’événement se produise divisée par la 
probabilité que l'événement ne se produise pas. 

Une probabilité est une proportion et se situe toujours entre 0 et h Une cote se 
situe entre zéro et l'infini. N’importe quelle probabilité peut être exprimée en cote. N im- 
porte quelle cote peut être exprimée en probabilité. Les cotes peuvent être converties en 
probabilités (et inversement) avec les équations 14,3 et 14,4 : 
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EXERCICES 

1, Un test a une spécificité de 92 % et une sensibilité de 99%. Calculez les valeurs 
prédictives d'un test positif et d'un test négatif dans une population où 5% des 
individus sont malades, 

2. Un test a une spécificité de 92% et une sensibilité de 99%, Calculez les valeurs 
prédictives d'un test positif et d’un test négatif dans une population où OJ % des 
individus sont malades. 

3, Une femme veut savoir si son fils unique est daltonien. Son père étant daltonien, 
elle doit être porteuse du gène de cette maladie (le daltonisme est fié au sexe). Cela 
signifie qu'en moyenne, la moitié de ses fils seront daltoniens (elle n'a pas d autre 
fils). Son Fils est un petit enfant éveillé. Mais si vous lui demandez la couleur d’un 
objet il semble répondre au hasard. Il ne maîtrise pas le concept de la couleur. Est- 
il daltonien ? Ou n a-t-il pas encore compris la notion de couleur ? De votre expé- 
rience avec d autres enfants du même âge, vous estimez que 75% d'entre eux 
répondent correctement à des questions portant sur la couleur dun objet. Combi- 
nez les antécédents génétiques de cet enfant et votre estimation sur les enfants de 
son âge pour calculer la probabilité qu i! soit daltonien. 

4 . Pour le patient C de I exemple de la porphyrie. quelle serait la valeur prédictive d un 
test positif si, par votre intuition clinique, vous estimiez la probabilité a priori à 
75 %? 
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réponse n'est pas nécessairement 5 %. Les statistiques conventionnelles sont inca- 
pables de répondre à cette question. La logique de Bayes peut y répondre mais 
seulement si on peut défmïr la probabilité a priori que Y hypothèse nulle soit vraie, 
La partie suivante explique comment appliquer la logique de Bayes aux P-valeurs. 

Dans chaque cas (tests diagnostiques et tests statistiques) la logique de la première 
question part de la population vers l'échantillon et Ja logique de la seconde question part de 
l 1 échantillon vers la population. Pour analyser des données, la deuxième question nous 
intéresse davantage. 



LA VALEUR PREDICTIVE DE RESULTATS 
SIGNIFICATIFS; BAYES ET P-VALEURS 


On effectue un test statistique et on obtient un résultat significatif. Reprise de la 
dernière partie, voici la question à laquelle on souhaite répondre : 

Dans quelle proportion de l'ensemble des études qui donnent des P- valeurs significatives l'hypothèse 
nulle ost-elle vraie? Autrement dit, si un résultat est statistiquement significatif, quelle est la proba- 
bilité que l’hypothèse nulle soit vraie? 

Voici un exemple imaginaire. Des chercheurs d'une industrie pharmaceutique 
étudient certains médicaments potentiellement efficaces pour traiter l'hypertension. Ils 
testent ces médicaments sur un groupe d’animaux, fis ont décidé qu une baisse moyenne 
de 10 mmHg de pression artérielle était intéressante et ils utilisent des échantillons assez 
grands pour avoir une puissance de 80%, capacité de trouver une différence significative 
(a = 0.05) si la vraie différence entre les moyennes des populations est de 10 mmHg. (Nous 
apprendrons à calculer la taille d'un échantillon au chapitre 22), 

lis testent un nouveau médicament et constatent une baisse significative de la 
moyenne de pression artérielle. Il y a deux possibilités. Soit le médicament abaisse réel- 
lement la pression artérielle, soit le médicament ne modifie pas du tout la pression arté- 
rielle et ces chercheurs ont observé par hasard ces résultats chez les animaux traités. Dans 
quelle mesure chacune de ces deux possibilités est-elle probable ? 

Puisque a est fixé à 0,05, on sait que 5 % des études réalisées avec des médica- 
ments inactifs montreront une baisse significative de pression artérielle. Mais ce n'est pas 
la question posée. On veut connaître la réponse à une autre question : dans quelle propor- 
tion des études où s'observe une diminution significative de pression artérielle le médica- 
ment est-il réellement efficace? La réponse n'est pas nécessairement 5 %. Pour calculer ia 
réponse, il faut utiliser la logique de Bayes et considérer ia probabilité a priori. La réponse 
dépend de ce qu'on connaît du médicament avant de commencer L étude, exprimé par la 
probabilité a priori que le médicament soit réellement efficace. Ce point est illustré dans les 
trois exemples suivants. 
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L'approche bayésienne nous permet de comprendre pourquoi il faut interpréter les 
P-valeurs dans le contexte de ce que nous connaissons ou croyons déjà et pourquoi il faut 
tenir compte de ia plausibilité biologique pour interpréter des données. Quand la théorie 
change, il est préférable d’adapter notre perception de la probabilité a priori et de changer 
notre interprétation des données. Par conséquent, si on demande à différentes personnes 
d’analyser les mêmes données, elles peuvent, en toute honnêteté, tirer des conclusions 
différentes en suivant la démarche appropriée, 



L’APPLICATION INFORMELLE DE LA LOGIQUE 
DE BAYES 


Dans les articles de recherche biomédicale, on rencontre rarement (voire jamais) 
les calculs de Bayes pour interpréter des P-valeurs. Peu de scientifiques utilisent les calculs 
de Bayes pour aider à lin ter prêtât ion des P-valeurs. Par contre, de nombreux scientifiques 
utilisent la pensée bayésienne de façon plus informelle sans formuler la probabilité a priori 
de façon explicite et sans réaliser de calculs supplémentaires. Prenant trois études à titre 
d’exemples, la réflexion pourrait se présenter comme suit: 

* La première étude a testé une hypothèse biologiquement plausible et appuyée par 
des données antérieures. La P-valeur vaut 0,04, ce qui est marginal Qn a le choix 
de croire que les résultats sont dus à une coïncidence qui se produit 1 fois sur 25 
sous \ hypothèse nulle ou bien de croire que l'hypothèse de recherche est vraie. 
Puisque l'hypothèse est très crédible, on préférera la deuxième alternative. L'hypo- 
thèse nulle est sans doute fausse. 

* La seconde étude a testé une hypothèse incompréhensible du point de vue biolo- 
gique et qui n'a jamais été soutenue par des données antérieures. La P-valeur vaut 
0,04, légèrement inférieure au seuil habituel de 0,05, Qn a le choix de croire que les 
résultats sont dus à une coïncidence qui arrive I fois sur 25 sous l’hypothèse nulle 
ou de croire que l’hypothèse de recherche est vraie. Puisque l’hypothèse de recher- 
che est invraisemblable, on croira plus facilement que les résultats sont dus à une 
coïncidence. L’hypothèse nulle est sans doute vraie. 

* La troisième étude a testé une hypothèse invraisemblable du point de vue biolo- 
gique et qui n’a pas été soutenue par des données antérieures. On serait étonné si 
cela s'avérait vrai. La P-valeur est incroyablement basse (0,000001). Après avoir 
analysé les détails de l’étude, on ne peut identifier aucun biais ni aucune imperfec- 
tion. Il s agit de scientifiques de bonne réputation et ils ont sans doute rapporté 
leurs données honnêtement On a le choix de croire que les résultats sont dus à une 
coïncidence qui survient une fois sur un million sous l'hypothèse nulle ou de croire 
que l'hypothèse de recherche est vraie. Même si l'hypothèse de recherche semble 
insensée, les données poussent à la croire. L hypothèse nulle est probablement 
fausse. 

il faut interpréter les données expérimentales dans le contexte de la théorie et des 
données antérieures. Cest pourquoi différentes personnes peuvent honnêtement tirer des 
conclusions différentes sur base des mêmes données, 
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LE THÉORÈME DE BAYES 


EN GÉNÉTIQUE 



LE THEOREME DE BAYES ET LE CONSEIL GENETIQUE 


Un conseil génétique a pour objectif de déterminer la probabilité qu'un individu ait 
un profil génétique particulier 


1.1 | Exemple 16.1 

Une femme veut connaître les chances qu'elle soit porteuse du gène de la dystro- 
phie musculaire de Duchenne, une maladie récessive lié au chromosome X, Étant donné 
que son frère et son onde maternel ont tous les deux la maladie, il est évident que le gène 
se transmet dans sa famille et qu'il ne s'agit pas d une nouvelle mutation. D'après son 
histoire familiale, sa mère doit être porteuse du gène. Cette femme avait donc 50% de 
chance d'hériter de ce gène à la naissance. 

Le fait que cette femme ait deux fils indemnes de la maladie diminue les chances 
qu'elle soit porteuse du gène. La logique bayésienne permet de combiner ces évidences 
(deux fils en bonne santé) et l'histoire familiale £50% de chance d'être porteuse). Nous 
réaliserons d'abord les calculs étape par étape au moyen d’un tableau et nous utiliserons 
ensuite l'équation de Bayes. Le tableau 16,1 montre les résultats qu'on s'attendrait à 
observer si on examinait de nombreuses femmes ayant la même histoire familiale et deux 
fils. Les calculs seront expliqués plus loin. 

Pour construire le tableau, il faut suivre ces étapes; 

1, Fixons le total général du tableau à 1000* II s agit d un nombre arbitraire puisque 
seules les proportions nous intéressent. 

2, Nous savons que la moitié des femmes sont porteuses. Inscrivons donc 1/2 ■ 1ÜÛ0 
soit 500 comme total pour chaque colonne. 
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exercices 

1 . Dans l'exemple 1 6. 1 , supposez que la femme avait 3 fils non malades. Quelle est la 
probabilité qu’elle soit porteuse de la maladie ? 

2. Si le lod score est —3, quelle est la probabilité que le marqueur soit lié à la maladie? 

3. Il est possible de calculer une P-valeur à partir de données d'une étude de liaison. 
Expliquez dans un langage clair ce que cela veut dire, 

4. Vous faites un test t et obtenez une Ravaleur de 0,032. Vous avez examiné assez de 
sujets pour pouvoir garantir que l'expérience avait une puissance de 80% pour 
détecter une différence déterminée entre les moyennes avec P < 0,05. Y a-t-il un 
sens a calculer un rapport de vraisemblance ? Si oui, calculez le rapport et expliquez 
ce qu'il signifie. 
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être induit en erreur. L'axe X ne commence pas à (X ce qui donne l'impression que la 
variabilité est plus grande qu'elle ne l est en réalité. 

Au vu du graphique, \\ existe une relation évidente entre les deux variables. En 
général, les individus dont les muscles ont plus d'acides gras poiy- in saturés C20-22 sont 
aussi plus sensibles à l'insuline. Les deux variables varient simultanément — les statisti- 
ciens disent qu'ii y a une covariation importante ou une importante corrélation, 

La direction et l’importance de la corrélation linéaire peut être quantifiée au moyen 
d’un coefficient de corrélation, abrégé r. Sa valeur peut aller de -1 à î. Si le coefficient de 
corrélation vaut 0, alors les deux variables ne varient pas du tout simultanément. Si le 
coefficient de corrélation est positif, les deux variables ont tendance à augmenter ou à 
diminuer simultanément. Si le coefficient de corrélation est négatif, les deux variables sont 
inversement associées, c’est-à-dire que quand une variable a tendance à diminuer, l’autre a 
tendance à augmenter. Si le coefficient de corrélation vaut 1 ou -1 T les deux variables 
varient parfaitement simultanément, autrement dit. graphiquement, les données forment 
une ligne droite. 

Dans l'exemple, les deux variables augmentent simultanément, donc le coefficient 
de corrélation doit être positif Comme les données sont un peu dispersées, le coefficient de 
corrélation doit donc être inférieur à 1,0. En fait, le coefficient de corrélation est égal à 
0,77 50 . Comme toujours, nous souhaiterions inférer le coefficient de corrélation à f entiè- 
reté de la population. Nous connaissons le coefficient de corrélation pour cet échantillon de 
13 hommes. En utilisant une équation donnée en fin de chapitre, nous pouvons calculer 
que l'intervalle de confiance (IC) à 95% du coefficient de corrélation s'étend de 0,38 à 0,93. 
Nous pouvons être certains à 95 % que le coefficient de corrélation de la population se situe 
dans cet intervalle. Même l'extrémité la plus basse de TIC représente une forte corrélation. 
Nous pouvons donc être assez confiants sur le Fait qu’il existe une forte corrélation dans la 
population. 

il est possible de calculer une P-valeur sur base de ces données. L'hypothèse nulle 
est qu'il n’y a pas de corrélation dans la population, La P-valeur bilatérale répond à la 
question suivante: si l'hypothèse nulle est vraie, quelle est la probabilité que, pour 1 3 sujets 
choisis au hasard, r soit supérieur à 0,77 ou inférieur à —0,77? 

Dans cet exemple, la P- valeur vaut 0.002 3 . Si il n'y avait vraiment pas de relation 
entre la sensibilité à l’insuline et le pourcentage d'acide gras C20-22, il y aurait seulement 
0,21 % de chance d'observer par hasard une corrélation aussi forte dans une étude de cette 
taille. 



INTERPRETATION DU r 


Pourquoi les deux variables sont-elles si bien corrélées? Il y a quatre explications 
possibles ; 


5Ü Toutes les valeurs ont été calculées à partir des données extraites du graphique de l'article. Comme c'est un peu 
imprécis, tes calculs présentés dans T article sont légèrement différents. 
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La plupart des méthodes non paramétriques se basent sur une idée simple. IE faut 
ranger les valeurs par ordre croissant et attribuer un rang à chaque valeur. Toutes les 
analyses qui suivront seront basées sur les rangs. En analysant les rangs et non les valeurs, 
on ne doit plus se soucier de la distribution de la population. Une méthode non paramé- 
trique permettant de quantifier la corrélation est la corrélation des rangs de Spearman La 
corrélation des rangs de Spearman se base sur les mêmes hypothèses que la corrélation 
ordinaire (de Pearson) évoquée plus haut si ce n'est que la corrélation des rangs ne requiert 
pas de distributions gaussiennes. Pour l'exemple de la sensibilité à l'insuline, r 5 — 0,74 
avec un ïC à 95% allant de 0,31 à 0,92. 



NE PAS COMBINER DEUX POPULATIONS 
EN CORRÉLATION 


Pour interpréter les résultats d'une corrélation ou d une régression linéaire, il faut 
s assurer que toutes les données proviennent d'une seule population. Si les données sont 
issues de deux populations, on peut facilement être induit en erreur. La figure 1 7.3 donne 
un exemple. Quand toutes les données sont analysées, le coefficient de corrélation vaut 
0,72, Les variables X et Y semblent présenter une corrélation extrêmement forte et la 
P-valeur vaut 0,0009. Mais les données proviennent en fait de deux populations différentes, 
représentées par des cercles et des triangles. Dans chacune des populations, les variables X 
et Y sont très faiblement corrélées, avec r — -0J6 et r — 0,05, respectivement. Chaque 
P- valeur est supérieure à 0,50. La conclusion correcte d'après ces données est que les deux 


100 


75 
> 50 


25 


0 


FicuRf 17.3 II faut éviter de combiner deux populations dans une corrélation, Si on analyse toutes les 
données, on trouvera que r — 0,72 et P = 0,0009, U semble très évident que X et V sont corrélés Mais on 
a en fait tiré l'échantillon dans deux populations différentes, représentées par des cercles et des triangles. Si on 
analysait chaque échantillon séparément, on trouverait des coefficients de corrélation très faibles et des 
P-valeurs supérieures à 0,50, Il n"y a en fait aucune évidence que X et V sont corrélés. La combinaison des 
deux populations a créé l'illusion tfune corrélation. 
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3, Avec l'aide d un livre, d une machine à calculer ou d un ordinateur, vous devez être 
capables de calculer le coefficient de corrélation entre deux variables. Vous devez 
également être capables d'obtenir la P-valeur appropriée 

4, Vous devez être capables de reconnaître les données pour lesquelles il est plus 
approprié d'utiliser le coefficient de corrélation de Spearman. 

5, Vous devez être capables d estimer le coefficient de corrélation d'un graphique XY. 


EXERCICES 

1 . Dans l’exemple 17,1. comment les chercheurs auraient-ils analysé les données s'ils 
avaient mesuré deux fois la sensibilité à l’insuline et le pourcentage de C20-22 chez 
chaque sujet ? 

2. La P-valeur de l’exemple 17.1 était bilatérale. Que vaut la P-valeur unilatérale? 
Que si g ni fie -t el le ? 

3 Faut-il mesurer les variables X et Y dans les mêmes unités pour calculer un coef- 
ficient de corrélation ? Peuvent-elles être mesurées dans les mêmes unités? 

4, Que vaut la P-valeur si r = 0,5 avec un échantillon de taille n - 10 ? Que vaut la 
P-valeur si r = 0,5 avec un échantillon de taille n = 100 ? 

5h Pouvez-vous calculer un coefficient de corrélation si toutes les valeurs de X sont les 
mêmes? Si toutes les valeurs de Y sont les memes? 

6. Golîno et coîl. ont étudié les effets de la sérotonine libérée au cours d une angio- 
plastie coronaire 5 *. Après l'angioplastie (qui consiste à gonfler un ballon posi- 
tionné dans la lumière d’une artère coronaire pour forcer l'ouverture d une artère 
bouchée), ils ont mesuré le degré de vasoconstriction dans les premières minutes 
qui suivaient par le pourcentage de variation dans la surface de section (estimée au 



Sérotonine (ng/ml! 

% de changement de la surface de section 

2,0 

4,0 

5,0 

7,0 

6,0 

28,0 

IÜ.0 

26,0 

15,0 

30,0 

60,0 

34,0 

65,0 

35,0 

165,0 

42,0 


' P Golino, F Piscione* CR Benedict, el cil. Local effect of sermon in released during coronary angtoplasty . jV Engl 
J Med 330 : 523 - 528 , 1 994 . 
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courbe au graphique concentration versus réponse au dosage (qui peut être une 
densité optique, une radioactivité, une fluorescence, etc). Cette ligne ou courbe 
peut alors être utilisée pour déterminer la concentration à partir de ïa réponse 
obtenue avec des échantillons inconnus. 



LES DIFFERENTS TYPES DE REGRESSION 


La régression recouvre une grande famille de techniques. 


3.1 Régression linéaire simple 

C'est la forme la plus usuelle de régression. La variable dépendante est une mesure. 
Il y a une seule variable X, Le graphique de Y en fonction de X a l'allure d’une ligne droite. 
Le chapitre suivant discute de la régression linéaire. 



Régression linéaire multiple 


Y est toujours une variable quantitative (mesure) (pas une proportion et pas un 
temps de survie) mais il y a deux variables X ou plus, La régression multiple est appliquée 
pour déterminer l'influence d'une variable X tout en ajustant pour les effets des autres. La 
régression multiple (discutée dans le chapitre 31) est aussi utilisée pour trouver une 
équation qui permette de prédire des valeurs futures de la variable dépendante. 


3.3 Régression logistique 

Y est dans ce cas, une variable dichotomique (ou proportion) telle que, infecté/non 
infecté ou cancer/pas de cancer. Il peut y avoir une seule variable X. cependant la régres- 
sion logistique est plus fréquemment utilisée avec plusieurs X. La régression logistique est 
discutée dans le chapitre 32, 


3.4 Modèle de régression des risques instantanés 
proportionnels 

La variable dépendante ici, est le temps de survie. Il peut y avoir une seule variable 
X, cependant le modèle de régression des risques instantanés proportionnels (discuté au 
chapitre 33) est plus fréquemment utilisé avec plusieurs X. 

3.5 | Régression non linéaire 

À nouveau, Y est une mesure quantitative et il y a une seule variable X. Mais le 
graphe de Y en fonction de X est une courbe. La régression non linéaire est discutée dans le 
chapitre 34. 
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% d' acides gras C20-22 

Ficlire 19.2 Interprétation de l'intervalle de confiance d'une droite de régression. Les limites de CIC à 95 % de 
la droite de régression dé notre exemple sont représentées par les courbes en pointillés. Si les conditions 
d'application de la régression linéaire sont acceptables, on peut être certain à 95% que la droite réelle la 
mieux ajustée se trouve entre ces limites de confiance. Par exemple, cinq droites de régression possibles sont 
représentées {trait plein). Elles se trouvent toutes dans PIC à 95%, 


Considérons à présent le tableau 19,1 qui nous présente les résultats numériques 
sortis par ln$tat. 

* La pente vaut 37,2, Ce ci signifie que lorsque Je %C20-22 augmente de 3,0, ia 
moyenne de la sensibilité à lin su li ne augmente de 37,2 mg/m 2 /min. Le programme 
fournit aussi Î1C à 95% de ia pente et son interprétation nous est familière, La 
pente calculée à partir d'un échantillon particulier n’est vraisemblablement pas 
égale à la pente réelle dans ta population. Cependant, nous pouvons être certains à 
95 % que la pente réelle se trouve dans le domaine défini par TIC à 95 %, entre 1 6.7 
et 57,7 mg/m'Vmin, 

* L ordonnée à f origine est —486,5, C’est la valeur de Y lorsque X vaut zéro. Pris au 
pied de fa lettre, ceci signifie que s’il n’y avait pas d acide gras C2Û-22 dans les 
membranes,, la sensibilité à l’insuline serait - 486,5, D'un point de vue biologique, 
ceci n’est pas possible puisque 3a sensibilité est la quantité de glucose nécessaire 
pour maintenir un taux sanguin constant et ne peut donc être négative. Nous 
discuterons ce problème plus loin. 

* L'abscisse à T origine est la valeur de X lorsque Y vaut zéro. Prise au pied de la lettre, 
cette valeur indique que lorsque le %C2CP22 vaut 13,076, les muscles n'auront 
aucune sensibilité à l'insuline. Comme nous n'avons aucune donnée pour laquelle 
le %C 20-2 2 est proche de 1 3 ,13 n'y a pas moyen de savoir si c’est réellement te cas, 

* Les résultats indiquent ensuite que H vaut 0,5929. Cest la même valeur que celle 
déterminée par la corrélation linéaire au chapitre 17. Elle signifie que 59% de la 
variabilité de la sensibilité en Insuline peut être expliquée par le modèle de régres- 
slon linéaire — que 59% de la variabilité de ia sensibilité à l'insuline peut être 
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RÉGRESSION LINÉAIRE: UNE MÉTHODE 
DE MOINDRES CARRÉS 56 


Comment la procédure de régression linéaire trouve-t-elle les & meilleures » valeurs 
de q et j3 pour faire en sorte que le modèle de régression (équation 19.2) s'ajuste aux 
données? La régression linéaire définit la « meilleure droite » comme celle qui minimise la 
somme des carrés des distances verticales des points observés à la droite. Ceci implique que 
la somme serait plus élevée pour n’importe quelle autre droite. 

Pourquoi minimiser la somme des carrés des distances ? La réponse la plus simple 
est que ceci permet de contourner le problème des distances négatives. Mais pourquoi ne 
pas minimiser ïa valeur absolue des distances? Une réponse simple est que les distances 
sont élevées au carré parce qu’il est préférable d'avoir deux points relativement proches de 
îa droite (disons 5 unités chacun) plutôt qu'un point très proche ( 1 unité) et le second très 
éloigné (9 unités). Une autre réponse est que la minimisation de la somme du carré des 
distances est un critère qui garantit que la droite dérivée de n'importe quel ensemble de 
données est unique. Une méthode qui minimise la valeur absolue des distances n'aurait 
pas toujours généré une réponse unique. 

I! y a une autre manière de comprendre pourquoi la régression linéaire minimise le 
carré des distances. La distance verticale entre chaque point et la droite de régression est 
appelée résidu. La régression linéaire conduit à la droite qui minimise la DS des résidus. 
Lorsqu'on calcule la DS, on somme les carrés d'écarts ; donc pour minimiser la DS, il faut 
minimiser la somme des carrés d’écarts. 

Remarquons que la régression linéaire ne conduit pas véritablement à la droite qui 
se trouve « la plus proche » des points car elle ne prend en considération que les distances 
verticales (parallèles à l'axe Y). Ceci implique également que les calculs de régression 
linéaire ne sont pas symétriques par rapport à X et Y, Une permutation de X et Y produira 
une droite de régression difïerente (à moins que les observations ne soient parfaites et que 
tous les points se trouvent exactement sur la droite). C'est compréhensible dans la mesure 
où l'objectif est de trouver la droite qui prédit le mieux Y à partir de X. La droite qui prédit le 
mieux X à partir de Y est le plus souvent différente, 

Un exemple extrême permet d éclaircir ce point. Considérons des données ou X et Y 
ne sont pas du tout corrélés. On connaît X et on doit prédire Y* Le mieux que l'on ait à faire 
est de prédire que Y est égal à la moyenne des valeurs de Y pour toutes les valeurs de X. La 
droite de régression linéaire pour prédire Y en fonction de X est donc une droite horizontale 
à hauteur de la moyenne de Y, Inversement, la meilleure droite pour prédire X en fonction 
de Y serait une droite verticale située à la moyenne de X et à 90° de l'autre droite. 




Cette section est plus poussée que le reste. Elle peut être passée sans perte de continuité. 
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Quantifier l'exactitude de la valeur Y prédite est difficile. Pour réaliser cela, on 
souhaite calculer un intervalle de prédiction à 95%, c'est-à-dire le domaine de valeurs 
qui contient 95 % des nouveaux points. Ceci est différent de Y \ C présenté précédemment. 
L'intervalle de prédiction doit prendre en compte l'incertitude dans la position de la droite 
de régression (quantifiée par l'ÏC à 95% de la droite de régression) et la dispersion des 
points autour de la droite. L'intervalle de prédiction est donc beaucoup plus large que l'ÏC. 

La distinction entre IC et intervalle de prédiction est semblable à la différence entre 
erreur standard et DS et a déjà été discutée dans le chapitre 5. Les intervalles de prédiction 
sont toujours plus larges que les IC, Lorsque le nombre d observations augmente, l’ÏC 
devient plus étroit tandis que I intervalle de prédiction reste à peu près le même. Comme 
l'ÏC l'intervalle de prédiction est curviligne, 


H|J| LA RÉGRESSION VERS LA MOYENNE 


Lorsqu'on interprète les résultats d'une régression linéaire, il faut s'assurer que les 
axes X et Y correspondent bien à des mesures distinctes. Sinon, on risque de faire fausse 
route à cause d'un problème nommé la rafressiûrt vers b moyenne. Voici un exemple, 

La figure 19.5 représente des données générées par ordinateur et simulant une 
expérience ou la pression artérielle a été mesurée avant et après une intervention. Le 
diagramme de gauche présente les données. Chaque point est un individu dont la pression 
artérielle a été mesurée avant (axe X| et après (axe Y) une intervention. Les données sont 



PA systolique (avant) PA systolique (avant) 

Ficunr 19.5 La régression vers la moyenne. Le graphique de gauche représente des données fictives de 
pression artérielle avant et après une intervention. Toutes les valeurs ont été échantillonnées d une distribu- 
tion gaussienne de moyenne 120 et de DS 10. Il n'y a pas de corrélation entre les deux ensembles de valeurs. 
Le graphique de droite présente tes mêmes données après avoir effectué quelques manipulations. L'axe Y 
correspond à présent à la variation en pression artérielle (après — avant), H apparaît une forte corrélation 
entre les deux variables et la droite de meilleur ajustement (représentée) a une pente qui est loin de 
l'horizontale. Les sujets qui au départ avaient une pression artérielle basse, avaient tendance à voir leur 
pression augmenter (partie gauche du graphique), les sujets qui au départ avaient une pression artérielle 
élevée, avaient tendance à voir leur pression diminuer (partie droite du graphique). S'il s'agissait de données 
réelles, on pourrait être intrigué par ces résultats. Cependant, il n'y a aucun résultat à trouver et les données 
sont aléatoires, Parce que les valeurs portées en Y incluent les valeurs portées en X, la régression linéaire n'est 
pas appropriée pour analyser ces données, 
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La régression linéaire trouve la «meilleure» droite qui passe dans un nuage de 
points observés. Plus précisément, la régression linéaire trouve Sa droite qui minimise la 
somme des carrés des distances verticales des points à la droite, 


L Vous devriez être familiers avec les termes suivants : 

* Régression 

* Modèle 

* Moindres carrés 

* Ordonnée à [ origine 

* Résidu 

* Pente 

2. Vous devriez connaître les conditions dapplication de la régression linéaire et 
savoir que l'utilisation de la régression linéaire peut conduire à des résultats erro- 
nés en cas de relation non linéaire entre tes variables. Vous devriez savoir que les 
calculs de régression linéaire ne sont pas symétriques en X et Y, 

3. En utilisant un livre, une machine à calculer et un ordinateur, vous devriez être 
capables de réaliser des régressions linéaires. 

4. Vous devriez être capables d interpréter les résultats de programmes de régression 
linéaire, 

5. Vous devriez comprendre pourquoi les IC des droites de régression sont représentés 
par des courbes et pourquoi les intervalles de prédiction sont plus larges que les 
intervalles de confiance. 



exercices 

1 . La droite de régression sera-t-elie la même si vous permutez X et Y ? Qu'en sera-t-il 
du coefficient de corrélation ? 

2. Pourquoi l [C d une droite de régression est-il curviligne ? 

3. Les axes X et Y doivent-ils avoir les mêmes unités pour réaliser une régression 
linéaire ? 

4. Combien de P-valeurs peut-on dériver d'une régression linéaire simple ? 

5. Les résultats d'un dosage de protéines sont présentés dans le tableau ci-dessous. 
Des produits chimiques sont ajoutés à des tubes qui contiennent des quantités 
variables de protéines, La réaction provoque une couleur bleue. Les tubes avec une 
concentration plus élevée de protéines deviennent bleu foncé, La teinte plus ou 
moins foncée de la couleur bleue est mesurée par densité optique. 
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LE DESIGN DES ESSAIS 

CLINIQUES 


Note aux scientifiques en sciences fondamentales : tous pouvez passer ce chapitre 
sans perdre le fiï de I exposé. 

Il existe de nombreuses méthodes pour faire de la recherche médicale. Certaines 
recherches peuvent être faites en examinant des enregistrements existants tels que des 
certificats de décès ou des dossiers médicaux. D'autres types de recherche sont faits avec 
des animaux, Beaucoup d’études cliniques sont faites selon un design tas-témoins (voir 
chapitre 9), Ce chapitre traite des essais cliniques. Il s’agit d'expériences médicales où I on 
donne un type de traitement à certains patients et un autre type à d’autres et les résultats 
sont comparés. 

Bien que la médecine existe depuis des millénaires en tant que profession de la 
guérison, l'idée que les traitements médicaux doivent être testés de façon expérimentale est 
assez neuve. Quelques expériences médicales ont été publiées durant le XIX e siècle et au 
début du XX e siècle, mais ce n’est vraiment qu’après 1940 que la recherche clinique 
moderne s'est bien établie. Aujourd'hui il est généralement accepté que les nouveaux 
traitements soient testés avant d être utilisés plus largement et il est aussi généralement 
accepté que le test soit prudemment contrôlé pour éviter des biais, Quand une anecdote ou 
une observation permet de formuler une hypothèse, on fait des expériences pour tester 
l’hypothèse. C'est une idée relativement récente en médecine. Cette idée devrait également 
s imposer dans d f autres disciplines telle que l'éducation. 

Avant qu'un nouveau traitement médicamenteux puisse être utilisé cliniquement, 
il doit être testé selon une série d’ étapes bien définies. Au début, le travail est bien sûr pré- 
clinique, On peut déterminer de nombreuses propriétés du médicament en utilisant des 
animaux ou des cultures de cellules. Ensuite, la recherche clinique sur des nouveaux 
médicaments procède en quatre phases : 

* On teste pour la première fois un médicament sur des êtres humains au cours de la 

phase 1 . Le médicament est administré à quelques douzaines de personnes pour en 
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1.6 Le design d'inter-croisement 

Dans le design cTin ter-croisement appelé aussi pian alterné ou plan avec permuta- 
tion des traitements, chaque sujet est utilisé comme son propre contrôle. Ce design d’essai 
est utile pour des thérapies médicamenteuses qui peuvent être évaluées assez rapidement 
et pour des maladies qui ne progressent pas vite, Les designs d : inter -croisement ne peuvent 
habituellement pas être utilisés pour étudier des procédures chirurgicales {il n'est pas 
possible de « retirer * l' opération) ou pour une chimiothérapie cancéreuse (la mal progresse 
trop rapidement) mais sont utiles pour le traitement de conditions chroniques comme 
l’arthrite ou l’asthme. Pour ne pas introduire une nouvelle variable confondante (par 
exemple le temps ou l’ordre de traitement), l’ordre des deux traitements doit être appliqué 
aléatoirement pour chaque patient. Certains patients reçoivent d'abord le traitement À; 
d autres reçoivent d'abord le traitement B, 

Deux problèmes se posent dans les designs d'inter-croisement* Premièrement, 
1 effet du premier traitement peut subsister durant la période du second traitement. Ces 
essais incluent donc généralement une période de sevrage entre les deux traitements pour 
éviter un effet résiduel. Le deuxième problème réside dans le fait que les sujets peuvent 
sortir de l’essai avant d’avoir reçu le second traitement. 

1.7 Intention de traiter 

Quand un sujet a été assigné aléatoirement à recevoir un certain traitement, il peut 
ne pas le suivre. Comment analyser les données de ce sujet? À première vue, la réponse 
serait d envisager le traitement que le patient reçoit réellement plutôt que le traitement 
qu'il est supposé recevoir mais cela pose des problèmes. 

Supposons, par exemple, que nous comparons des traitements médicamenteux 
avec des traitements chirurgicaux (pontage coronaire) pour des patients souffrant d'une 
maladie cardiaque. Un des patients assigné à la chirurgie attrape une pneumonie et l opé- 
ration est donc annulée, l*e patient ne reçoit pas le traitement chirurgical qui lui était 
assigné mats reçoit, au contraire, l'autre traitement. Admettons maintenant qu'il meure 
de pneumonie. Comment analyser ce décès ? On a spontanément envie de répondre que le 
patient a reçu un traitement médicamenteux et non chirurgical et donc que le décès doit 
être considérée comme un décès parmi les patients recevant îe traitement médical. Mais 
cela biaiserait les résultats, La raison pour laquelle l’opération a été annulée était la 
pneumonie du patient. Si on retire ces patients du groupe chirurgical, alors on retire les 
patients les plus malades d'un groupe et on les additionne à l’autre. Les deux groupes ne 
sont plus comparables. 

Une autre patiente a accepté de participer à fessai sachant qu'elle peut être opérée 
ou qu elle peut recevoir des médicaments* Elle est assignée à un traitement médicamen- 
teux. Après réflexion, elle décide finalement de choisir la chirurgie, Comment analyser le 
résultat de celte patiente ? Elle n'a pas reçu 3e traitement qui lui était assigné Ethiquement, 
on ne peut pas empêcher un patient de suivre le traitement qu i! souhaite. Scientifique- 
ment, on ne veut pas considérer la réponse de cette patiente comme faisant partie du 
groupe chirurgical. Si chaque sujet choisit son propre traitement, alors les deux groupes 
vont différer sous de nombreux aspects et la comparaison des réponses sera dénuée de sens. 
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* Aucun sujet ne peut être enrôlé dans Fessai sans l'avoir formellement accepté en 
signant un document de consentement. Ce document explique le but de I essai (en 
incluant une explication de la randomisation et du placebo si nécessaire) et énu- 
mère les avantages anticipés (potentiels) et les risques que prend le patient. Le 
document de consentement doit indiquer que la participation est volontaire et que 
le patient peut se rétracter sans pour autant perdre l'attention à laquelle il a droit. 
Ces documents doivent être écrits dans la langue du patient, avec des termes clairs 
et sans iargon médical. Habituellement, ils comptent deux à trois pages. Les comi- 
tés d’éthique de la recherche portant sur des êtres humains ou du matériel humain 
permettent parfois aux chercheurs de court-circulter l'information du consente- 
ment dans des circonstances inhabituelles (enfant en bas âge, patients comateux, 
traitements d'urgence) ou permettent de recourir au consentement des tuteurs ou 
des membres de la famille. 

* Le sujet doit être tenu au courant d’éventuelles Informations supplémentaires 
apparaissant au cours de l'essai et qui pourraient influencer sa décision de conti- 
nuer l'essai. 

* Les protocoles de recherche doivent être approuvés par un comité de cliniciens et 
de scientifiques ainsi que d'autres non impliqués dans la recherche. Ce procédé de 
révision permet d'éviter un enthousiasme excessif de chercheurs pour accomplir 
des essais dangereux. Dans la plupart des pays, ce procédé de révision est géré 
légalement. Le comité de révision est souvent appelé « Commission d'éthique », Si 
la recherche porte sur un nouveau médicament, il doit d’abord être approuvé (aux 
USA) par la « Food and Drug Administration », S’il porte sur des isotopes radioactifs 
ou des AD N -recombinants, il doit aussi être approuvé par des comités spécialisés. 



L'ETHIQUE DU PLACEBO 


On a parfois l'impression que les patients qui sont randomisés pour recevoir un 
placebo sont soumis à un mauvais traitement.. Us sont malades et p au lieu d’avoir un 
traitement expérimental, ils reçoivent un médicament inactif. Il n'est éthique pour les 
chercheurs d’utiliser un placebo dans un essai que si on pense qu'aucune des thérapies 
standards ne puisse être bénéfique au patient. Quand des thérapies classiques sont claire- 
ment efficaces, les patients du groupe contrôle doivent recevoir ces thérapies plutôt que le 
placebo. 


Mais ce n'est pas parce qu'un traitement est standard, logique et accepté que cela 
veut dire qu'il aide les patients. Dans l'histoire médicale, il y a beaucoup d'exemples de 
thérapies qui étaient considérées à F époque comme des standards et qui sont considérées 
comme nuisibles actuellement. George Washington a probablement été tué par saignée, 
une thérapie conventionnelle de son époque. L'oxygène pour les bébés prématurés est un 
autre exemple. Certains pensaient que l’oxygène pouvait être toxique et causer une forme 
de cécité (fïbroplasie rétrocristallinienne). Four tester cette idée, ils accomplirent plusieurs 
expériences contrôlées, À l époque, on pensait qu'il n’était pas éthique de réduire Foxygène 
(le traitement établi) délivré aux bébés prématurés atteints d'une maladie pulmonaire. Il 
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LES ESSAIS CLINIQUES 

AVEC n = 1 


La plupart des essais cliniques engagent beaucoup de patients et le nombre de 
patients est abrégé «n ». Un essai avec n — 40 enrôle 40 patients. On peut répondre à 
certaines questions cliniques en faisant un essai formel avec un seul patient, n = L 

L'objectif d'un essai où n = 1 est modeste. On n'essaie pas d’élucider les secrets de 
la nature et on n 3 essaie pas de rassembler des données qui aideront de futurs patients. On 
veut seulement savoir quelle est, parmi plusieurs alternatives, la meilleure pour le patient. 
Le médicament administré est-il meilleur qu'un placebo? La dose A est-elle meilleure que 
la dose B? Un médicament générique est-MJ plus efficace qu'un médicament de marque ? 

U n'est fondé de conduire un essai n — 1 que quand il existe un doute important au 
sujet de la meilleure thérapie à proposer. Peut-être que ni le patient, ni le clinicien ne 
pensent que la thérapie utilisée a de l'effet On peut faire un essai n — ï en comparant le 
médicament et le placebo pour éclairer la situation. Le patient insiste peut-être pour 
prendre un traitement que le clinicien croit sans valeur. On peut faire un essai n = 1 pour 
savoirs! ie médicament est meilleur que l'alternative. Un essai n — 1 est seulement faisable 
dans les conditions suivantes; 

* La maladie est chronique et donc le traitement sera administré sur une longue 
période. 

+ L'état du patient est assez stable et donc la maladie ne s'aggravera pas au cours de 
l'essai, 

* Les traitements font rapidement de l'effet et les effets sont rapidement réversibles. 

* Le patient comprend le fondement de l'étude et veut y participer, 

* il est possible de quantifier F efficacité du traitement expérimental par des mesures 
de laboratoire ou sur une échelle clinique (Le, la qualité de vie). Idéalement, on 
enregistrera plusieurs variables qui mesurent l'efficacité du traitement ainsi que les 
effets secondaires. 

* Un pharmacien est disponible pour préparer des médications non étiquetées et 
pour garder la trace du médicament et du placebo. 


Auteurs rechtelijk beschermd materiaal 




Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 



Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 



Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 


248 VL Le design des essais cl iniques 


Tablfâu 22,1 Valeur de l'indice de puissance 


n 


Indice de puissance U, 

i + * .iŸ 


Unilatéral 

Bilatéral 

fl = Q r Q1 
Puissance - 
99% 

? = 0,05 
Puissance = 
95% 

0 = 0,10 
Puissance = 
90% 

i = 0,20 
Puissance = 
80% 

i = 0,50 
Puissance = 
50% 

Û,05 

ÜJ0 

15,8 

10,9 

8,6 

6,2 

2,7 

0,025 

0.05 

18,3 

13,0 

10,5 

7.9 

3,8 

0,005 

0,01 

23,9 

17,8 

14,9 

11.7 

6,6 


Avant d'essayer de calculer l'indice de puissance pour différentes valeurs de z^ ou 
Z 0 , essayons d'abord de reproduire le tableau 22. 1. Selon le tableau utilisé, il faudra consi- 
dérer Zy — a. Z\ — fl ou z\ - aj 2, 

Exemple 22.3 

Nous savons que îa déviation standard de la pression artérielle dans notre popula- 
tion est d'environ 10 mmHg. De combien de sujets avons-nous besoin pour avoir une 
puissance de 80% de détecter une différence de 5 mmHg entre les moyennes avec 
P < 0.05 (bilatéral) ? La réponse est environ 63 sujets dans chaque groupe. 

Les programmes informatiques calculent parfois la taille d'échantillon pour plu- 
sieurs valeurs d o et fl. Le tableau 22.2 présente les résultats obtenus avec Instat pour 
l'exemple précédent. 


ï Mit tau 22,2 Calcul de la taille de l'échantillon pour l'exemple 22 3 


Valeurs introduites 

Differente significative minimum que l'on souhaite detecter 5 
Déviation standard estimée pour chaque population 10 



Les valeurs sont [es nombres de sujets nécessaires dans chaque groupe. 
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utm 


J RÉSUME 


Avant de commencer une étude, les chercheurs doivent connaître te nombre de 
sujets à y inclure. Il faut suffisamment de patients pour avoir des résultats valables mais il 
faut également éviter de perdre du temps et de l'argent en utilisant trop de sujets. On peut 
utiliser deux approches pour calculer la taille d'un échantillon. Une des approches consiste 
à déterminer le nombre de sujets nécessaires pour que l'intervalle de confiance (ou l'in- 
tervalle de confiance d une différence) ait une largeur définie. L'autre approche consiste à 
déterminer le nombre de sujets nécessaires pour avoir une certaine puissance pour obtenir 
une différence significative (avec une valeur a spécifiée), étant donné une hypothèse de 
recherche spécifiée. Pour utiliser l une ou l'autre méthode, il faut estimer la déviation 
standard des valeurs (si la réponse est une mesure) ou estimer la valeur de la proportion 
(si la réponse est binomiale). 



OBJECTIFS 


1. Sans utiliser de livre ni d’ordinateur, vous devez savoir quelles informations sont 
nécessaires pour calculer la taille d'un échantillon dans diverses situations. 

2, En utilisant des livres, des machines à calculer ou des ordinateurs, vous devez être 
capables de déterminer la taille d’échantillon nécessaire pour obtenir une moyenne 
ou une proportion avec une certaine précision. Vous devez aussi être capables de 
calculer la taille d'échantillon nécessaire pour trouver une différence spécifiée avec 
une puissance spécifiée. 


EXERCICES 


1, Vous préparez le protocole d’une étude afin de tester si un nouveau traitement 
médicamenteux diminue la pression artérielle de façon importante. Par votre expé- 
rience, vous savez qu'il suffit de 15 rats dans chaque groupe. Préparez une analyse 
de puissance convaincante pour justifier cette raille d'échantillon, 

2, L incidence générale d'une maladie est de 1 pour 10 000, Vous pensez qu'un fac- 
teur d'exposition augmente le risque. De combien de sujets avez-vous besoin pour 
détecter un risque relatif aussi petit que l r I dans une étude prospective, avec 95% 
de puissance? 

3, Quelle taille d'échantillon auriez-vous besoin pour réaliser un sondage électoral 
visant à déterminer, avec une erreur de l %, le pourcentage des voix destinées à 
chaque candidat ? Quelles hypothèses faites-vous ? 

4, Une étude peut-elle atteindre une puissance de 100%? 

5, Environ 10% des patients meurent au cours d une certaine opération. Une nou- 
velle technique pourrait réduire le taux de mortalité. Vous planifiez un essai pour 
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* Comme t est un rapport de deux grandeurs ayant les mêmes unités, il n'a pas 
d'unité, 

• ïi n'est pas nécessaire d'avoir les données brutes pour calculer t. Nous pouvons le 
calculer à partir de la moyenne, de l'erreur standard de la moyenne (ou de la 
déviation standard) et de la taille de chaque groupe. 



COMMENT OBTENIR LA P-VALEUR A PARTIR DE t 


A L’AIDE D’UNE TABLE 


Si l'on n utilise pas un programme informatique qui calcule la P-valeur exacte, il 
faut déterminer la P-valeur à l aide d'une table. 

Pour convertir t en une P-valeur, nous devons pouvoir répondre aux trois questions 
suivantes: 

• Quelle est la valeur de t ? 

Si elle est négative, on ne considère pas son signe (c’est-à-dire que I on prend sa 
valeur absolue). Lorsque t augmente, la P-valeur diminue. 

• Souhaite-t-on calculer des P-valeurs uni ou bilatérales? 

Pour des raisons déjà mentionnées plus haut, ce livre utilise toujours des P-valeurs 
bilatérales, 

• Combien de degrés de liberté (dl) y a-t-il ? 

Pour un test t appliqué dans le cas de deux échantillons, le nombre de dl est le 
nombre total de sujets moins deux. Pour l'exemple, dl = S, Si l'on a pas étudié les 
statistiques de manière approfondie, les règles pour calculer les degrés de liberté 
n'étant pas toujours intuitives, il Faut soit les apprendre, soit les rechercher. Pour 
toute valeur particulière de t, la P-vaieur diminue lorsque le dl augmente. 


1 millau 25.2 Détermination de ta P-valeur à partir de t 
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Différence observée 


IC à 9S% 

**■__ T - — — 

— . — -p — r a r r "i h - f " - 'j r^ -g • a p " | — s 

-50 -25 0 25 50 


Différence entre les moyen hes 


E 

I 


I 

¥ 


Non significative : 

¥ 

[ i i i h | i i — t — f—j — i — i — ■ — p — I — i — r — i — ■ — I — i 

-50 -25 0 25 50 

Différence entre les moyennes 

I ftnUHi 233 Relation entre IC et signification statistique, ta largeur de SIC à 95 % est égale à l'étendue du 
domaine où les différences ne seraient pas significatives (a - 0,05). Dans cet exemple, NC à 95% n’rndut pas 
0 et le domaine des valeurs non significatives nlnclut pas la différence observée. 


chaque direction sur une demi-largeur définie par l'équation 23.4 ; 

Demi-largeur — t* ■ ES de la différence (23.4) 

Dans l'exemple traité, la valeur critique de t est 2,306 et LES de la différence est 
9,84 mmHg. L IC à 95% s'étend sur une distance égale à 22,69 de chaque côté de la 
différence moyenne observée, égale à 25. Donc l'IC à 95% s'étend de 2.31 à 47,69. Avec 
un degré de confiance de 95 %, on peut dire que la différence vraie entre les moyennes des 
populations se trouve dans cet intervalle représenté sous forme de boîte dans la partie 
supérieure de la figure. 

Le résultat du test d hypothèse se trouve quant à lui représenté dans la moitié 
inférieure de la figure. Étant donné la taille de l'échantillon et la dispersion, n importe 
quelle différence entre les moyennes a l'intérieur de la boîte serait non significative et 
n'importe quelle différence à l'extérieur serait statistiquement significative. Déterminer 
ou dessiner la droite est simple. On peut transformer P équation 23.1 en l'équation 23.5 ; 

Différence entre les moyennes = t - ES de la différence (23.5) 

En se basant sur le tableau 23.2, on peut savoir que n'importe quelle valeur de t 
entre —2306 et 2306 P conduira à une P-valeur (bilatérale) plus grande que 0,05 (si 
le nombre de degrés de liberté vaut 8). L'ES de la différence estimée à partir de nos 
données vaut 9,84. Donc une différence entre les moyennes des échantillons de 
2,306 x 934 = 22.69 (dans n'importe quelle direction) sera exactement à îa limite de la 
signification, La boîte correspondant à la «non-signification* s'étend dune différence 
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272 VIL les t-ests statistiques usuels 


Tableau 24.1 Réarrangements pour lesquels les valeurs moyennes du groupe A sont inférieures de 2 5 unités 

ou plus a celles du groupe B 


Croupes 

Valeurs 

Différence entre les moyennes 

A 

80, 90. 95, 110, 120 

25 [données observées) 

B 

105, 115, 125, 130, 145 


A 

80, 90. 95, 105, 120 

27 

B 

110. U5. 125, 130, 145 


A 

80, 90, 95, 105, 1 10 

31 

B 

115, 120, Î25, 130, 145 


A 

80, 90, 95, ! 10, 1 15 

27 

B 

105, 120, 125, 130, 145 


A 

80, 90, 95, 105, 115 

29 

B 

110, 120, 125, 130, 145 


A 

80, 90, 95, 105, 125 

25 

B 

110, 115, 120, 1 30, 145 




La P -valeur 
unilatérale vaut 
6/252 sort 0,024 


Figure 24,1 Test exact de randomisation, La figure représente toutes les 252 manières possibles dont [es 
valeurs observées peuvent être réorganisées en plaçant cinq observations dans chaque groupe. En X, se trouve 
la différence entre les moyennes et en Y, le nombre de dispositions possibles qui conduiraient à cette 
différence. La surface noircie à droite représente les six dispositions qui conduisent à une différence entre 
les moyennes aussi grande ou plus grande que celle observée dans l'exemple. La surface noircie à gauche 
représente les six dispositions qui conduisent à une différence entre les moyennes aussi grande ou plus grande 
que celle observée dans l'exemple mais dans l'autre direction. La P valeur bilatérale est 12/252 soit 0,048. 
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276 VU. Les tests statistiques usuels 


Il y a trois façons d'obtenir des sommes de rangs de 18 et 37 et quatre façons 
d’obtenir une différence plus grande entre les sommes de rangs ( 1 7 et 38 (2 fois), 16 et 39, 
1 5 et 40). Il y a 245 autres manières d'organiser les valeurs de sorte que la différence entre 
les rangs soit moins extrême ou dans la direction opposée. La P-valeur unilatérale est donc 
7/252 — 0,028, La P-valeur bilatérale, qui intègre la possibilité que la différence entre les 
sommes de rangs soit aussi importante mais en faveur du groupe A, est égale à deux fois la 
valeur unilatérale, soit 0,056, 

Parce que le test t utilise une information en plus (ou plutôt une hypothèse sup- 
plémentaire), il est plus puissant que le test de Mann-Whitney lorsque les conditions 
d’application du test t sont satisfaites. Avec de grands échantillons, la différence en terme 
de puissance est négligeable. Avec des échantillons plus petits, la différence au niveau de la 
puissance est plus marquée. Si Ton a 7 observations ou moins pour [ ensemble des deux 
groupes, le test de Mann-Whitney ne peut jamais donner une P-valeur inférieure à U,ü5, 
aussi importante que soit la différence entre les groupes. 


RÉALISATION DU TEST DE MANN-WHITNEY 68 


Comme pour 3a plupart des tests statistiques, il vaut mieux laisser les calculs aux 
ordinateurs. Si on souhaite calculer soi-même le test, il faut suivre les étapes décrites ci- 
dessous. Bien que la logique soit simple, il y a deux manières différentes de réaliser le test, 
La méthode décrite par Mann-Whitney implique le calcul d'une variable appelée U. Une 
autre méthode, mais équivalente, décrite par Wilcoxon implique le calcul d'une variable 
appelée T, Chaque méthode utilise un ensemble distinct de tables. Les deux méthodes sont 
présentées ici de façon à pouvoir être utilisées selon le type de tables disponible. Parce que 
Wilcoxon et Mann et Whitney ont développé des tests équivalents, on nomme parfois le test 
de l'un ou l’autre nom, Wilcoxon a également développé un test non paramétrique pour des 
données appariées que nous verrons dans la section suivante ; les tables à utiliser pour les 
deux tests sont très différentes mais on peut les confondre facilement. 

1 . Ordonner les valeurs des deux groupes. En les ordonnant, il ne faut pas tenir 
compte du groupe auquel appartiennent les valeurs, À la plus petite valeur pour 
[ ensemble des deux groupes, on attribue le rang 1 et à la plus grande valeur pour 

I ensemble des deux groupes, on attribue un rang égal au nombre total d'observa- 
tions des deux groupes. Si deux valeurs ou plus sont identiques, on attribue à 
chacune la moyenne des rangs qui leur correspondraient. Par exemple, si les 
valeurs du 5" et 6 e rang sont identiques, on attribue a chacune un rang de 5,5, 
Si les trois valeurs de rang 11,1 2, 13 sont identiques, on attribue à chacune le rang 
12. Il faut ordonner en fonction des valeurs observées, pas des valeurs absolues. 
Les nombres négatifs ont toujours des rangs inférieurs à ceux des nombres positifs. 

2 . Sommer les rangs dans chaque groupe. On dénomme la somme des rangs et TV 

II faut regarder dans la table appropriée pour trouver la P-valeur, Bien que cette 
table se trouve habituellement sous l'intitulé test de « Mann-Whitney s- ou test de la 


^ Cette partie contient les équations nécessaires pour calculer soi-même les statistiques. Elle peut être passée sans 
perdre le fil de Texposé, 
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25, La comparaison de deux échantillons appariés: le test t paire et le test de Witcoxon 281 


Tableau 25,1 Données de pression artérielle pour cinq étudiants 



Etudiant A 
Étudiant B 
Étudiant C 
Étudiant D 
Étudiant E 


120 

SO 

90 

110 

95 


115 

95 

105 

120 

100 


Différence 


-5 

15 

15 

10 

5 


Pour poursuivre l'exemple de la pression artérielle, supposons que nous suivons 
cinq étudiants et mesurons leur pression artérielle à la fois en première et seconde année et 
que nous avons recueilli les données présentées dans le tableau 25. 1, La première colonne 
est la même que précédemment ; la deuxième colonne est différente. 

Chaque ligne représente un seul étudiant dont la pression artérielle a été mesurée 
deux Fois à un an de distance. Dans la dernière colonne se trouve l accroissement de 
pression artérielle pour chaque étudiant, L r augmentation moyenne vaut 8 et l'ESM de cette 
augmentation est 3,74. Le test t vaut donc 2,14, Comme nous avons cinq sujets. le nombre 
de dl est quatre. La P-valeur bilatérale vaut 0,0993 : NC à 95 % pour la variation moyenne 
de pression artérielle va de —2,3 à 18,4. Avec aussi peu de sujets, F1C est très large. 

Si ces données avaient été analysées avec un test t non pairé, la P-valeur bilatérale 
aurait été 0,370. En faisant des mesures répétées chez les mêmes sujets et en utilisant cette 
information dans l'analyse, l'étude est plus puissante et génère une P-valeur plus petite et 
un IC plus étroit. 


CONDITIONS D'APPLICATIONS DU TEST I PAIRE 

• Les paires doivent avoir été sélectionnées de manière aléatoire ou au minimum 
être représentatives d une population plus grande, 

• Les échantillons doivent être appariés. L'appariement entre les valeurs de la 
colonne A et celles de la colonne B doit avoir été fait sur base d'un protocole 
expérimental et décidé avant que les données ne soient récoltées. Il n'est pas 
indiqué d'apparier des données après qu’elles aient été récoltées, 

• Chaque paire doit être sélectionnée de manière indépendante des autres, 

■ La distribution des différences dans la population doit être approximativement 
gaussienne. 




TEST t « RAPPORT » 


Le test t paire est habituellement effectué de la manière décrite ci-dessus en calcu- 
lant la différence entre les membres de la paires {par soustraction). L'hypothèse alternative 
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26 

LA COMPARAISON 
DES DÉNOMBREMENTS 
OBSERVÉS ET ATTENDUS 


L'ANALYSE DES DENOMBREMENTS 

Supposons qu'en moyenne, 10% des patients décèdent pendant ou immédiate- 
ment après une opération à risque Cependant, au cours du mois dernier, on a observé que 
16 patients sur 75 étaient décédés. On voudrait savoir si cela reflète réellement un chan- 
gement ou s'il s'agit seulement d une coïncidence. Des calculs statistiques ne peuvent 
donner une réponse définitive à cette question, mais ils peuvent répondre à une question 
liée a la précédente: si la probabilité de mourir était restée a 10%, quelle serait la pro- 
babilité d'observer 16 décès ou plus sur 75 patients ? Si la probabilité de mourir était restée 
à 10 %, on s'attendrait à avoir 10% x 75 =■ 7,5 décès en moyenne dans un échantillon de 
75 patients. Mais dans un échantillon particulier de 75 patients, on pourrait en observer 
plus ou moins que le nombre attendu. Les données peuvent être résumées comme le 
montre le tableau 26,1. 

Remarquons que ce tableau n'est pas un tableau de contingence. Dans un tableau 
de contingence, les colonnes doivent correspondre à des catégories différentes (par ex., 
homme/femme ou décédé/vivant). Ici, le tableau présente des nombres observés et atten- 
dus qui ne sont pas des issues alternatives. 

L'hypothèse nulle postule que les données observées sont échantillonnées des 
populations sur la base des fréquences attendues, il faut combiner les écarts entre observés 
et attendus et calculer ensuite une P- valeur qui répond à cette question: si î hypothèse 
nulle était vraie, quelle serait la probabilité de sélectionner aléatoirement des sujets pour 
lesquels on observe un tel écart entre les nombres observés et attendus ? 
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27 . La comparaison de deux proportions 293 


n a pas accès à un programme qui réalise le test de Fisher, on peut plutôt utiliser le test chi- 
cané. Si on utilise le chhcarré. il faut décider d'appliquer ou non la correction de Yatesc Des 
statisticiens différents donnent des recommandations différentes et il n'y a pas de consen- 
sus ferme. Dans tous les cas (avec ou sans la correction de YatesL le test chl-carrë fournit 
une P-valeur approximative. Plutôt que de décider quelle estimation est la meilleure en 
fonction de l'objectif poursuivi, il vaut mieux utiliser un programme qui calcule Ea P-valeur 
exacte avec le test de Fisher. 

Grands écfron! filons, Si l'échantillon est de grande taille (milliers de sujets), on peut 
utiliser le chi-carré. Avec d’aussi grands échantillons, le calcul du test de Fisher prend du 
temps, peut conduire à des problèmes de calcul (dépassement de la capacité de l'ordina- 
teur) et il n est pas plus précis que le chl-carrë. Avec de grands échantillons, cela n f a aucune 
importance d utiliser ou non la correction de Yates car la valeur du chi-carré et la P-valeur 
seront pratiquement identiques avec ou sans correction. 

Le ehi-carré et le test de Fisher sont des méthodes alternatives de calcul, Les 
données traitées par les deux tests sont exactement les mêmes (une table 2 x 2) et la 
P-valeur résultante a Sa même signification, Le test de Fisher donne toujours une P-valeur 
théoriquement correcte mais calculer un test de Fisher sans ordinateur est plutôt fastidieux 
même avec des tables. Par contre, le chi-carré est facile à calculer maïs la P-valeur résul- 
tante est seulement une approximation. Lorsque le nombre de sujets est suffisamment 
grand, l’approximation est utile. Lorsque le nombre de sujets est petit, l'approximation 
rf est pas valable et peut conduire à des résultats erronés. 

En lisant la littérature, on peut rencontrer une troisième manière de calculer une 
P-valeur, le f€st z. Bien que le test z semble être tout à fait différent du chi-carré, les deux 
tests sont mathématiquement équivalents et conduisent à des P-valeurs identiques. 
Comme pour le chi-carré, il faut décider ou non d’appliquer la correction de Yates pour 
calculer le test z 



CALCUL DE LA PUISSANCE 73 


Lorsque l'on interprète les résultats d'une étude conduisant à une conclusion non 
significative, il est utile de calculer la puissance de celte élude. Rappelons-nous la défini- 
tion de la puissance. 

Si fort suppose que les proportions vraies dans les deux populations sont ïti et ir 2 , la 
puissance est la probabilité que l'on obtienne une différence significative entre tes propor- 
tions lorsque l'on, compare des échantillons aléatoires d une certaine taille. Dans une étude 
prospective ou expérimentale, ttj et tt; sont les incidences dans les deux populations: dans 
une étude cas-témoins, tti et tt 2 sont les proportions de cas et de témoins exposés au facteur de 
risque ; dans une étude transversale, tt| et n 2 sont les pré valences dans les deux populations, 

La puissance d'une étude dépend des suppositions que l'on fait pour les propor- 
tions TT ! et Tïj dans les deux populations. Toutes les études ont une puissance faible si ttj et 

Cette partie ton tient les équations pour faire soi-même le calcul des statistiques. File peut être sautée sans 
risque de perdre le fil de I "exposé. 

NDT : la proportion daitÿ la population a été notée ir 
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302 vue, introduction aux teste statistiques avancés 


Avec 3 in formation que nous avons reçue jusqu'à présent* nous serons seulement 
capables de comprendre environ la moitié des articles de la littérature médicale. Les autres 
articles utilisent des tests statistiques plus avancés. Pour maîtriser ces tests, nous aurions 
besoin d'un cours de statistique approfondie ou nous devrions étudier un texte plus poussé. 
Les chapitres de cette partie nous donnent une vue d'ensemble sur ['utilisation de ces tests, 
ce qui peut parfois suffire à en comprendre les résultats. On peut lire ces chapitres dans un 
ordre quelconque sans perdre le tîl de 1 exposé. 
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28, Lintervalle de confiance sur des variables de dénombrement 307 


4.1 Exemple 28.1 

Nous avons placé un échantillon radioactif dans un compteur de rayons gamma et 
nous dénombrons les émissions radioactives pendant 10 minutes. Le compteur relève 
225 coups par minute. Quel est l'intervalle de confiance à 95 %? Puisqu'on a compté les 
coups pendant 10 minutes, l'instrument doit avoir détecté 2250 désintégrations radio- 
actives. L intervalle de confiance à 95% de cette valeur va de 2157 à 2343 pour 10 minutes. 
Donc, l'intervalle de confiance à 95 % du nombre moyen de coups par minute va de 216 à 
234. 


4.2 Exemple 28.2 

L'exposition à une toxine environnementale cause 1,6 décès pour 1000 personne- 
années d'exposition. Quel est l'intervalle de confiance à 95 % ? Pour le calculer, nous 
devons connaître le nombre exact de décès qui ont été observés dans ! étude. Dans cette 
étude, 16 décès ont été observés pour 10000 personne-années {les auteurs ont peut-être 
étudié 10 000 personnes pendant une année ou 500 personnes pendant 20 ans). En utili- 
sant la table A5.9 de l'annexe, on trouve un intervalle de confiance à 95 % du nombre de 
décès allant de 9,1 5 à 25,98. En divisant par 10, on trouve que lintervalle de confiance à 
95 % du taux de décès va de 0,92 à 2,6 décès pour 1000 personne-années d’exposition, 

1 . Vous devez être capables d'identifier des variables qui sont distribuées selon une 
distribution de Poisson. En utilisant une calculatrice et un livre, vous devez être 
capables de calculer lintervalle de confiance à 95 % de la moyenne d une variable 
de Poisson, 



EXERCICES 


1 , Vous utilisez un hémocytomètre pour dénombrer des globules blancs. Vous regar- 
dez une lame quadrillée au microscope et observez 25 carrés de 0,1 microlître. Vous 
dénombrez les globules blancs dans 9 carrés et vous en trouvez 50 au total. Pouvez- 
vous calculer l'intervalle de confiance à 95% du nombre de globules blancs par 
microlitre? Quelles hypothèses faites-vous? 

2, En 1998, une publication dans Nature (333:816, 1988) a fait sensation dans la 
presse populaire et scientifique. Les auteurs prétendaient que des anticorps, même 
dilués à une concentration de IO -120 par rapport à la concentration de départ, 
stimulaient une dégranulation des basophiles. À une telle dilution, la probabilité 
qu il y ait encore dans le tube ne fût-ce qu'une seule molécule d'anticorps est 
quasiment nulle. Les chercheurs ont émis l'hypothèse que l'eau «se rappelait» 
en quelque sorte qu'elle avait vu des anticorps. Ces résultats donnaient de la 


tuteur 


slijk 





Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 



Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 



Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 


312 VI II. Introduction aux tests statistiques avancés 


* Échantillonnage aléatoire simple , Les données doivent être choisies au hasard, ou du 
moins être représentatives d'une population plus grande, 

* Les données doivent permettre de construire un tableau de contingence. Les valeurs doivent 
correspondre au nombre de sujets. Les catégories qui définissent les lignes doivent 
être mutuellement exclusives ainsi que celles qui définissent les colonnes. Beau- 
coup de tableaux de données ne sont pas des tableaux de contingence et ne doivent 
pas être analysés avec le test du chi-carré. 

* Le test du chi-earré est basé sur plusieurs hypothèses simplificatrices qui ne sont 
vaïfcfes que dans /es grands échantillons. Quel nombre peut-on considérer comme 
grand ? Toute règle est quelque part arbitraire mais il existe une règle communé- 
ment admise pour décider s'il est correct d utiliser le test du chi-carré. Plus de 80 % 
des valeurs attendues doivent être supérieures ou égales à 5 et toutes les valeurs 
attendues doivent être supérieures ou égales à 2 (supérieures ou égales à 1 si le 
tableau a plus de 30 degrés de liberté). Cette règle concerne uniquement les valeurs 
attendues, pas les valeurs observées. Si la règle n'est pas satisfaite, on peut combi- 
ner deux lignes ou plus, ou bien deux colonnes ou plus, tout en respectant le sens 
des données. Sinon, on peut utiliser un programme qui calcule un test exact 
(analogue au test exact de Fisher). 

* Indépendance des observations. Chaque sujet doit avoir été sélectionné de façon indé- 
pendante dans la population. 

Par exemple, le tableau 29.4 est un tableau de contingence contenant des données 
de pression artérielle dans 4 classes. 

Les résultats de InStat sont présentés dans te tableau 29,5. La P-valeur est 0,0908, 
L'hypothèse nulle est que la prévalence de l'hypertension est identique dans les quatre 
classes. Si cette hypothèse nulle était vraie, il y aurait 9,1 % de chance de sélectionner au 
hasard des sujets présentant une variation aussi importante (ou plus importante) que celle 
observée ici. 

Tableau 29.4 Tableau de contingence pour les données de pression artérielle 


Pression artérielle élevee Pression artérielle non élevée 


I 5 25 

II 11 19 

III 12 19 

IV 14 16 


lABitAU 29.5 Output du logiciel Instat pour le test du chLcarré 
Chl-carré - 6,472. Degrés de liberté: 3. 

Taille de la table: 4 lignes, 2 colonnes. 

La P-valeur est 0.0908. 

Les lignes et les colonnes ne sont pas associées signifîcativement. 
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ANOVA A UNE VOIE 


L'ANOVA à une voie teste I hypothèse nulle que toutes les populations ont une 
moyenne identique, fl en résulte une P-valeur qui répond à la question suivante ; si fhypo- 
thèse nulle est vraie, quelle est la probabilité que des moyennes d’échantillons sélectionnés 
au hasard dans une même population varient autant (ou encore plus] que ce qui a été 
vraiment observé? 

Comme le nom 1 indique, T ANOVA analyse la variance entre les valeurs. Rappe- 
lons-nous que la première étape du calcul d'une variance consiste à additionner les carrés 
des différences entre chaque valeur et leur moyenne. Cette somme s'appelle la somme des 
carrés , La variance est la moyenne des carrés et la déviation standard est la racine carrée de 
la variance. 

Lorsqu'on combine des données relatives à plusieurs groupes, la variance a deux 
composantes. Si les groupes ont des moyennes différentes, une partie de la variation vient 
de Ea différence entre les moyennes des groupes. V autre partie de la variation vient des 
différences entre les sujets à t intérieur de chaque groupe. Cette autre partie peut être 
quantifiée en sommant les carrés des différences entre chaque valeur et la moyenne de 
son groupe. Cette quantité s'appelle la somme des carrés inira-graupes. La variation totale peut 
être quantifiée en sommant les carrés des différences entre chaque valeur et la moyenne 
générale. Cette quantité s appelle la somme des carrés totale. Si [ hypothèse nulle est vraie, ta 
somme des carrés intra-groupes aura une valeur proche de la somme des carrés totale 
parce que chaque valeur sera presque aussi proche de la moyenne générale quelle ne lest 
de la moyenne de son propre groupe. Si l'hypothèse nulle est fausse, chaque valeur aura 
tendance à être plus proche de la moyenne de son propre groupe qu elle ne l est de la 
moyenne générale; on s'attend à ce que la somme des carrés intra-groupes soit sensible- 
ment plus petite que la somme des carrés Totale. L'ANOVA à une voie calcule une P-valeur 
pour répondre à la question suivante; si I hypothèse nulle était vraie, quelle serait la 
probabilité qu'une étude de cette taille produise une différence aussi importante (ou plus 
importante) entre la somme des carrés totale et la somme des carrés intra-groupes? 

Des livres entiers ont été écrits sur f ANOVA et ia description qui précède donne 
seulement une petite idée du fonctionnement de la méthode. La façon la plus simple de 
comprendre les résultats d une ANOVA est de suivre un exemple. 



UN EXEMPLE 


Continuons l'exemple 13.5 de la page 150, dont les résultats sont repris dans le 
tableau 30,1. 

Il vaut mieux laisser les calculs aux ordinateurs. Les équations ne seront pas 
présentées ici. Les résultats obtenus avec le logiciel ïnStat sont présentés dans le 
tableau 30.2. D'autres logiciels fourniraient des résultats analogues, à l'exception de quel- 
ques variantes de vocabulaire. En français par exemple, certains programmes pourraient 
utiliser le mot modèle à la place de l’expression entre les groupes (traitements}, le mot erreur à Ea 
place de résidus et l'expression ANOVA à un facteur ou ANOVA à un critère à la place d' ANOVA 
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mu/iipies. La plupart des programmes informatiques offrent une panoplie de tests post-hoc 
et en choisir un est quelque peu déconcertant, El peut être utile de considérer la réponse 
aux questions suivantes. 

* Les colonnes suivent-elles un ordre naturel comme un ordre chronologique ou des 
doses croissantes? Si oui P il faut considérer les tests post-hoc de tendance. Au lieu 
de comparer des moyennes deux à deux, le lest post-hoc de tendance regarde s'il 
existe une tendance linéaire significative dans les moyennes selon I ordre des 
groupes. C'est en fait une forme de régression linéaire, 

* Souhaitons-nous faire des comparaisons élaborées ? Par exemple, on pourrait vou- 
loir comparer la moyenne de tous les groupes traités avec la moyenne d'un groupe 
témoin. Ou. on pourrait vouloir comparer la moyenne des groupes À et B avec celle 
des groupes C, D et E. Les statisticiens appellent de telles comparaisons des contras- 
tés. Pour calculer des contrastes, il faut utiliser la méthode de Scheffé. Pour prendre 
en compte la grande variété de contrastes possibles, la méthode de Scheffé génère 
des IC qui sont plus larges. Elle a aussi moins de puissance statistique pour détecter 
des différences que d'autres tests post-hoc, 

* Souhaitons-nous comparer un groupe témoin à tous les autres groupes (sans 
comparer les autres groupes entre eux) ? Si oui, il faut choisir le test de Dunnett. 

* En se basant sur le design expérimental est-il sensé de ne comparer que certaines 
paires précises de moyennes? Si oui il faut choisir le test de Bonferroni pour les 
paires de moyennes à comparer mais le choix de ces paires doit se faire sur base du 
protocole expérimental 11 n'est pas correct de regarder d'abord les données et de 
décider ensuite des paires à comparer. En regardant d'abord les données, on 
compare implicitement toutes les colonnes et cela doit se faire explicitement. 

* Souhaitons-nous comparer toutes les moyennes deux à deux ? Trois méthodes sont 
couramment utilisées: celle de Bonferroni. celle de Tukey et celle de Student- 
Newman-Keuls, Le test de Bonferroni est bien connu et relativement facile à 
comprendre, mais i! génère des IC qui sont trop larges et sa puissance est trop 
faible. Avec trois ou quatre groupes, on ne remarquera pas la différence mais il ne 

Ubuau 30,3 Résultats de InSlal pour le test post-hoc de Tukey 


Comparaison Différence moyenne q P-va 


Non coureuse vs amateur 0,1400 2,741 ** P < 0,01 

Non coureuse vs élite QJ2Q0 2,741 ns P > 0,05 

Amateur vs élite -Û.Û2ÜÛÜ Q.4574 ns P > 0.05 


Différence 

Différence moyenne 

Limite inferieure 

Limite supérieure 



de I IC i 95 % 

de PIC à 95 % 

Non coureuse - amateur 

0,1400 

0.03823 

0.2418 

Non coureuse - élite 

0.1200 

-0.02688 

0.2669 

Amateur - élire 

—0.0200U 

—0*1667 

0 1267 
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valeur de ces coefficients : si X; change d'une unité alors que toutes les valeurs des autres X 
sont constantes, alors Y augmente de fi\ (Y décroît si fi f est négatif)- Dans f exemple, le 
coefficient fi de la variable X «traitement diurétique antérieur» valait —8,8 m l/m in. Ceci 
signifie qu'après ajustement pour toutes les autres variables, les sujets qui avaient pris des 
diurétiques dans le passé, avaient une clearance de la créatinine moyenne, 8,8 mi/m in plus 
basse que celle des sujets qui n'avaient pas pris de diurétiques. Le coefficient fi du 
log (plomb) valait - 9,5 ml/min. Ceci signifie qu après ajustement pour toutes les autres 
variables, une augmentation de 1 unité en log(plomb) (ce qui signifie que la concentration 
en plomb à été multipliée par 10} est associée à une diminution de la clearance de la 
créatinine de 9,5 ml/min. L # IC à 95% s'étendait de ”18,1 à —0,9 ml/mm. 

Les programmes de régression multiple calculent également R qui est la fraction 
de la variabilité 86 totale en Y « expliquée » par la variation en toutes les variables X B \ Le 
programme génère une valeur de R 2 pour 3a régression dans son ensemble, pas une pour 
chaque X, Dans l'exemple, R 2 = 0.27. Ceci signifie que 27% de ta variabilité de la clearance 
de la créatinine était expliquée par la variabilité en plomb, âge et toutes les autres variables. 
Il reste donc 73% de variabilité qui n'est pas expliquée par la variabilité en l une quel- 
conque des variables mesurées. De nombreux programmes fournissent aussi un R 2 ajusté. 
L'ajustement diminue la valeur ers fonction du nombre de variables X. Le R' ajusté est une 
meilleure mesure d’ajustement du modèle que la valeur non ajustée, 

Les programmes de régression multiple calculent plusieurs P- va leurs. Une P- va leur 
teste I hypothèse globale que tous les coefficients fi valent 0 dans 3a population. En d'autres 
mots, c’est le test de l’hypothèse nulle qu'aucune des variables X n’influence Y, Si cette P- 
valeur est basse, on peut rejeter l'hypothèse nulle globale qu'aucune des variables X rfîn- 
fluence la variable étudiée. Dans l'exemple, les chercheurs n ont pas fourni la P-valeur 
globale. Le programme fournit des P- valeurs individuelles pour chaque coefficient /3j, tes- 
tant l'hypothèse nulle que ce coefficient spécifique fi\ vaut 0, ce qui est nettement plus 
intéressant. Exprimé autrement, chacune de ces hypothèses nulïcs postule que la variable 
X concernée n’est pas associée linéairement; à Y, après ajustement pour toutes les autres 
variables X, Dans l'exemple, les auteurs ont spécifié que la P- va leur pour le plomb était 
< 0,05. Si réellement, H n’v avait pas ci association entre la concentration en plomb et la 
clearance de la créatinine, on trouverait une corrélation aussi importante dans une étude 
de cette taille (après ajustement pour l’âge et les autres variables) moins de 5% du temps. 

La régression multiple est une technique puissante mais il peut être difficile d'in- 
terpréter les résultats Un des problèmes est la difficulté de visualiser les résultats graphi- 
quement. Ci-dessous sont énumérés quelques autres problèmes qui peuvent compliquer 
l'interprétation des résultats de la régression multiple: 

* Valeurs extrêmes. Comme dans 3a régression simple, un seul point extrême peut 
distordre considérablement les résultats. Dans le cas de la régression simple, ceci 
apparaît; généralement de façon évidente lorsqu'on regarde le graphique des don- 
nées. Il est plus difficile de visualiser graphiquement les données de régression 


■ ' NDT : dans V interprétation du R \ «variance» a été traduit par «variabilité », 

s Dam le cadre de la régression multiple, la tradition est d T utiliser un R majuscule. Dans le cadre de la régression 
simple, la tradition est d’utiliser m r minuscule. 
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* Pas d’interaction. L'influence d une variable X particulière quelconque est la même 
pour toures les valeurs des autres variables X. Dans l'exemple, le modèle postule 
qu'une fraction d éjection basse augmenterait le risque de sujets jeunes ou âgés de 
façon équivalente. 



L'INTERPRETATION DES RESULTATS 
DE LA RÉGRESSION LOGISTIQUE 


Le programme de régression logistique fournit les estimations de meilleur ajuste- 
ment soit pour chaque rapport des cotes {équation 32.2), soit pour chaque coefficient ,3 
(équation 32.1), Si on lit un article (ou un output d'ordinateur) qui utilise f équation 32.1 , il 
faut convertir les coefficients (3 en rapports des cotes de la manière suivante : le rapport des 
cotes pour la f variable est égal à e f '. 

Lorsque Xj est une variable binaire (par ex. X = G homme, X — 1 femme), l'inter- 
prétation du rapport des cotes est celle qui nous est familière. Toutes les autres variables 
étant constantes, le rapport des cotes est la cote de l'événement pour quelqu'un qui a X = 1 
divisée par la cote de l'événement pour quelqu un qui a X = 0. Dans l'exemple, les auteurs 
ont codé une des variables X en X — 0 si le sujet n avait pas une fraction d'éjection basse et 
X — 1 s'il avait une fraction d’éjection basse. Le rapport des cotes est la cote de complica- 
tion cardiaque parmi les patients ayant une fraction d’éjection basse divisée par la cote de 
complication cardiaque parmi les patients avec une fraction d’éjection normale. C'est un 
rapport des cotes ajusté dans la mesure où il est corrigé pour T influence de toutes les autres 
variables X telles que l'âge. 

Lorsque Xj est une mesure. l'interprétation du rapport des cotes nous est moins 
Familière. Le rapport des cotes est l'accroissement relatif de la cote lorsque Xj augmente de 

1.0, Toutes les autres variables X étant constantes, le rapport des cotes est la cote de 
l’événement pour quelqu un qui a Xj — Z (où Z représente n importe quelle valeur) divisée 
par la cote de l'événement pour quelqu'un qui a Xj = Z — 1 , Avec cette méthode, le rapport 
des cotes est supposé être le même pour toutes les valeurs de Z. 

Remarquons que les programmes de régression logistique ne font pas la distinction 
entre les variables auxquelles on s'intéresse particulièrement {dans l'exemple, la diminu- 
tion de la Fraction d'éjection) et les variables pour lesquelles on ajuste (dans l'exemple, l'âge 
et les antécédents de maladie coronarienne). La régression logistique conduit à des rap- 
ports des cotes pour chaque variable X, ajustés pour toutes les autres. Dans l'exemple, le 
programme fournirait également un rapport des cotes ajusté pour l’augmentation du risque 
de complication cardiaque avec P augmentation de l'âge et les antécédents de maladie 
coronarienne. C’est seulement en interprétant les résultats que i on peut distinguer les 
variables auxquelles on s'intéresse des variables pour lesquelles on ajuste. 

Les programmes de régression logistique fournissent plusieurs P-valeurs, Une 
P-valeur teste l'hypothèse nulle que le rapport des cotes global dans la population vaut 

1.0. En d'autres mots, cette hypothèse nulle postule qu’aucune des variables X n’est asso- 
ciée à P événement. Si celte P-valeur est basse, on peut considérer les P-valeurs individuel- 
les de chaque rapport des cotes. Chacune de ces P-va leurs teste l'hypothèse nulle que le 
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et sont allés en Oklahoma, Ils ont relevé le niveau d’intelligence moyen dans les deux 
états. 




LA REGRESSION MULTIPLE AVEC DES DONNEES 
DE SURVIE: RÉGRESSION DES RISQUES 
INSTANTANÉS PROPORTIONNELS 


La régression des risques instantanés proportionnels applique la méthodologie de 
la régression aux données de survie. Cette méthode permet de comparer la survie de deux 
groupes ou plus après ajustement pour les autres variables. 

5.1 Exemple 33.1 Suite (Diazépam et accès fébriles) 

Les chercheurs ont appliqué le modèle de régression des risques instantanés pro- 
portionnels pour ajuster l'effet du traitement en fonction de lâge, du nombre d'accès 
fébriles antérieurs et de plusieurs autres variables. Après avoir effectué ces ajustements, 
ils ont obtenu un risque relatif de 0,6 1 avec un IC à 95% s’étendant de 0,39 à 0,94. Les 
sujets traités au diazépam avaient un risque d'accès fébrile qui valait seulement 61 % du 
risque des sujets traités avec le placebo. Cette réduction était statistiquement significative 
avec une P-valeur de 0,027. Si le diazépam n’était pas efficace, il y aurait seulement 2,7% 
de chance d'observer un risque relatif aussi bas dans une étude de cette taille. Cet exemple 
montre que les résultats du modèle de régression des risques instantanés proportionnels 
sont faciles à interpréter même si les détails de l'analyse sont complexes. 



COMMENT LE MODÈLE DE RÉGRESSION DES RISQUES 
INSTANTANÉS PROPORTIONNELS FONCTIONNE 


Une courbe de survie représente graphiquement la proportion de survivants en 
fonction du temps. La pente ou la dérivée de la courbe de survie est le taux de mortalité 
pendant un court intervalle de temps. Ce taux est appelé risque instantané ou hazurd en 
anglais. Par exemple, si l'on s’attend à ce que 20% des patients avec un certain type de 
cancer meurent cette année, alors le risque instantané est de 20% par an. En comparant 
deux groupes, les chercheurs supposent souvent que le rapport des risques instantanés de 
décès est constant au cours du temps. Par exemple, le risque instantané parmi les patients 
traités pourrait être la moitié de celui des patients témoins. Le taux de mortalité change au 
cours de l'étude, mais à n importe quel moment, le risque de décès des patients traités vaut 
la moitié de celui des patients témoins. Une autre manière d’exprimer cela est de dire que 
les deux fonctions de risque instantané sont proportionnelles l une par rapport à l’autre. 
C’est une hypothèse raisonnable pour de nombreuses situations cliniques. 

AR Ftimtem, DA Sosin, CK Wells. Wïll Rogers phcnomenon. Stage migration and new diagnostic techniques 
as a source of misleading statistics for survival in cancer, New Engl J Med 3 12 : 1604-1608. 
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tration augmente encore, la liaison commence à atteindre un plateau lorsqu'on approche 
100% de saturation de récepteurs par le ligand. 

Le radioligand se fixe façon réversible à de nombreux types de récepteurs : 

Récepteur + Ligand ^ (Récepteur ■ Ligand) (34,1) 


À partir de la définition chimique de l'équilibre et de la loi d'action de masse, la 
relation entre la concentration de radioligand et la quantité de liaison à léqui libre suit 
l'équation 34.2 : 


Liaison spécifique — 


Bmax ■ [Ligand] 
K d + [Ligand] 


B tl]J ix ■ X 
Kd + X 


(34.2) 


La relation entre X (concentration) et Y (liaison) n est pas linéaire, aussi les métho- 
des de régression linéaire ne peuvent être utilisées. Nous devons faire passer une courbe à 
travers les observations pour trouver les valeurs de meilleur ajustement de B mÈW et K^, 



QUEL EST LE PROBLEME AVEC LA TRANSFORMATION 
DE DONNÉES CURVILIGNES EN DROITE? 


Avant la période des ordinateurs bon marché, la régression non linéaire n’était pas 
facilement accessible à la plupart des chercheurs. Plutôt que de l’utiliser, les chercheurs 
transformaient leurs données de manière à rendre le graphique linéaire. Us utilisaient 
ensuite la régression linéaire pour analyser les données transformées. Pour les données 
de type particulier envisagées dans L exemple, la transformation de Scatchard linéarise les 
données, ainsi qu'on peut le voir dans la figure 34.2. 

□ autres transformations linéaires couramment utilisées, sont le double réciproque 
ou le diagramme de Lineweaver-Burke utilisé en enzymologie et la transformation loga- 
rithmique utilisée dans les études cinétiques. Toutes ces méthodes sont dépassées et 
devraient être très peu utilisées pour analyser des données. En effet, la régression linéaire 
suppose que la dispersion des données autour de la droite suit une distribution gaussienne 
avec une déviation standard (DS) qui ne dépend pas de la valeur de X, Cette hypothèse est 
rarement vérifiée avec des données transformées. De plus la régression linéaire suppose 
que X et Y sont mesurés de façon indépendante. Avec certaines transformations (par 
exemple, la transformation de Scatchard), les valeurs de X et Y sont permutées par ta 
transformation, ce qui rend la régression linéaire non valide, 

La figure 34.3 illustre le problème lié à la transformation des données. La partie 
gauche présente des données qui proviennent d'une expérience similaire à celle de Texem- 
pie précédent mais la dispersion est plus grande. La courbe en trait plein a été ajustée par 
régression non linéaire. La partie de droite présente les mêmes données après la trans- 
formation de Scatchard - c'est le diagramme de Scatchard, La transformation de Scatchard 
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Ijes variables intéressantes biologiquement ou cliniquement ne sont pas souvent 
mesurées directement mais sont plutôt calculées à partir de 2 ou plusieurs variables 
mesurées. Ce chapitre explique comment déterminer l'intervalle de confiance (IC) de la 
variable calculée, 

1.1 L’intervalle de confiance d’une différence 

11 est fréquent que l'on soit amené à analyser une différence (D) définie en sous- 
trayant une valeur de base ou une mesure non spécifique (B) d une mesure totale (Ah En 
d autres mots, D= A — B, À la fois A et B sont des variables gaussiennes et I on veut 
connaître l'intervalle de confiance à 95% de la différence entre les moyennes (D), Si on 
suppose que les observations rie sont pas appariées et que les tailles des deux échantillons 
sont égales, on peut calculer l'erreur standard de la différence entre les moyennes, à partir 
de l'équation suivante: 

ESp = <JeSM{ + [-SM| (35, 1 ) 


Trois remarques: 

* L’ES de la différence est plus grande à la fois que TES de A et TES de B. 

* L équation 35.1 {identique à l 1 équation 7,1) suppose que les deux groupes ont le 
même nombre d'observations. Sî tes tailles d'échantillons sont différentes il faut 
plutôt utiliser l'équation 7.2. 

* À et B doivent être tous deux mesurés dans les mêmes unités, et L> est mesuré dans 
les mêmes unités. 
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35. La combinaison <k probabilités 357 


de chaque étude. Même si chaque étude individuellement n'arrive pas à une conclusion 
claire, une meta-analyse peut elle, conduire à des conclusions bien nettes. 

Lorsqu'on lit le compte-rendu d'une meta-analyse r il faut se poser certaines ques- 
tions: comment les auteurs ont-ils sélectionné les articles à prendre en considération? 
Quelle proportion des articles ont-ils Inclus dans l'analyse formelle ? Pourquoi ont-ils exclu 
ies autres ? Qui étaient les patients dans chaque étude? Les diagnostics et les traitements 
étaient-ils similaires? Comment ies résultats ont-ils été combinés ? Les auteurs om-ils pris 
en considération différents sous-groupes de patients séparément ? Qui a payé l'étude ? Dans 
quelle mesure, les résultats des études étaient-ils similaires ? 
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Tabuau 36.1 Résultats de la première étude 


Résultat Analyse 

Échec Réussite Total H = Î,ÛG 

WR = 1,00 


Opération I 1 20 1 20 240 

Opération II 40 40 80 

Total 160 160 320 

Tableau 36.2 Résultats de la deuxième étude 


Résultat Analyse 

Échec Réussite Total P = 1,00 

RR = 1,00 


Opération I 20 60 80 

Opération II 40 120 160 

Total 60 180 240 


Mut EAU 36,3 Résultats combinés de la première et de la deuxième étude 



Que se passerait-il si on combinait les deux études et qu'on analysait les données 
groupées? Les résultats, présentés dans le tableau 363, sont surprenants. 

Globalement, l'opération I a échoué chez 140/320 = 4375 % des sujets et l'opéra- 
tion Il a échoué chez seulement 80/240 = 33,3 % des sujets. Le risque relatif vaut 1.31. Si 
on teste l'hypothèse nulle selon laquelle il n’existe pas de différence avec le test de Fisher, la 
P-valeur vaut 0,014, L'opération II est significativement meilleure. Si on interprétait ces 
résultats tels quels (ce n'est pas une chose à faire !). on conclurait que la différence entre les 
deux opérations est statistiquement significative et que l'opération II est meilleure de 31 %. 

Com ment est-ce possible ? Dans chacune des études, les deux opérations se valent. 
Pourquoi n est ce pas le cas avec les données groupées? Les analyses groupées ne respec- 
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*■ Seulement brièvement mentionné dans ce livre. 
** Mon discuté dans ce livre. 








Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 



Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 



Yo u h ave e i th e r re a c h e d a p a g e th at i s u ri a va i I a b I e fa r vi e vvi n g o r re a c h e d y o u r yj ewj n g li rn i t f o rthis 

book. 


376 IX. Vue d'ensemble 



IL FAUT SE MEFIER DES COMPARAISONS MULTIPLES 


Quand on analyse des données aléatoires, une comparaison sur vingt en moyenne 
sera statistiquement significative par hasard. Il faut se méfier des grandes études qui 
réalisent des douzaines ou des centaines de comparaisons puisqu'on est susceptible d'y 
rencontrer des résultats significatifs à tort, En lisant des articles, il faut se demander 
combien d'hypothèses les chercheurs ont testées. 


d IL NE FAUT PAS SE FOCALISER SUR LES MOYENNES: 
LES VALEURS EXTRÊMES PEUVENT ÊTRE IMPOR- 
TANTES 

Les tests statistiques (test t, ANOVA) comparent des moyennes. La variabilité dans 
les études biologiques ou cliniques n'est pas toujours essentiellement due à des incertitu- 
des dans la mesure, Au contraire, la variabilité des données reflète une réelle diversité 
biologique. Il faut apprécier cette diversité ! Ne soyons pas hypnotisés par les moyennes; 
les valeurs extrêmes sont parfois plus intéressantes. Certains chercheurs ont gagné le prix 
Nobel grâce à des études portant sur des individus dont les valeurs étaient éloignées de la 
moyenne, 



IL EST NORMAL DE RENCONTRER 
DES DISTRIBUTIONS NON GAUSSIENNES 


De nombreux tests statistiques reposent sur I hypothèse que les données provien- 
nent d une distribution gaussienne et les scientifiques semblent souvent penser que la 
nature est assez bonne pour leur montrer que toutes les variables intéressantes se distri- 
buent de la sorte. Ce n'est pas vrai î De nombreuses variables intéressantes ne suivent pas 
une distribution gaussienne. 



QUALITE A L’ENTREE EGALE QUALITE A LA SORTIE 


Les calculs statistiques ingénieux ne sont d'aucune utilité si les données n'ont pas 
été collectées de façon adéquate. Les statistiques constituent la partie facile de l'interpréta- 
tion des données. La partie difficile consiste à évaluer la méthodologie de l'étude. Les tests 
statistiques ne permettent pas de savoir si l'étude a été conduite de façon appropriée. De 
nombreuses études sont mal conçues et les tests statistiques de telles études peuvent 
donner des résultats qui induisent en erreur. Si les données ne sont pas collectées de façon 
appropriée (ou comme dirait un biostatisticien, si I étude est biaisée), les tests statistiques 
sont difficiles à interpréter. Réfléchir au design de l'étude est le défi de la science Les études 
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1.4 Système unique de vérification de l’analyse 

Avec les autres logiciels statistiques, on peut facilement recevoir une réponse 
correcte à la mauvaise question C'est pourquoi InStat fournit un système unique de 
vérification de l'analyse. IJ effectue une double vérification pour s'assurer qu’avec les 
données, aucune condition d'application du test n'est violée et que le test choisi est en 
accord avec le protocole expérimental et répond réelle ment à la question posée. 



GraphPad Prism, disponible en version Windows et Macintosh, combine des gra- 
phiques scientifiques, l'ajustement de courbe et des statistiques. En fait, tous les graphi- 
ques de ce livre ont été faits avec Prism. 

ZI Approche originale 

L'entièreté du travail (toutes les données associées à Fétude, résultats, graphiques, 
mise en page et notes) peut être sauvegardée dans un seul fichier organisé. Tous les 
éléments sont liés — si l'on remplace ou édite des données, Prism remet à jour auto- 
matiquement le reste du travail. 

2,2 Graphiques instantanés 

Il suffit d'introduire les données et de cliquer une fois. Prism crée instantanément 
un graphique incluant des barres d'erreur automatiques et une légende. L'étude peut ainsi 
être résumée en combinant graphiques, données et résultats en une seule page, 

23 Ajustement facile de courbes 

Des courbes correspondant à différentes conditions expérimentales peuvent être 
ajustées en une seule étape. 11 suffit de choisir une équation à partir de la liste extensive 
incluse dans Prism et celui-ci fait le reste automatiquement. 

2.4 Aide statistique 

Les écrans d'aide de Prism et le manuel aident à choisir les analyses et interpréter 
les résultats* Il ne faut pas être un expert en statistique pour utiliser Prism. 



PLUS D’INFORMATION ET DÉMONSTRATION 



Pour plus d'informations sur InStat et Prism et pour décharger des versions de 
démonstration gratuites, on peut consulter le site web de GraphPad à l'adresse: 
www.graphpad.com ou encore contacter GraphPad Software, inc,: 
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Pour interpréter ces résultats, vous devez définir la population. S'il s'agissait de 
données réelles* vous souhaiteriez savoir comment les investigateurs ont sélec- 
tionné les patients. Sont-ils particulièrement malades ? Représentent- ils ["ensemble 
des patients atteints d une certaine pathologie ou seulement une petite partie? 
Sans information sur la méthode de sélection des patients, les données sont diffi- 
ciles à interpréter. 

Si vous pouvez définir la population d'où proviennent ces patients, vous devez 
supposer que ces 100 patients sont représentatifs de l'ensemble des patients et 
qu'ils ont été sélectionnés chacun de façon indépendante^ Si ces hypothèses sont 
respectées, alors, vous pouvez être surs è 95% que la probabilité globale de décès 
dans celte population se trouve quelque part entre les limites de 1 IC à 95%, 

2. Un nouveau médicament est testé chez 100 patients et diminue la pression arté- 
rielle en moyenne de 6%, Pouvez-vous calculer NC à 95 % de la réduction relative 
de la pression artérielle par ce médicament? Si oui, calculez cet intervalle. Si non, 
de quelles in forma lions devez-vous disposer? En quoi consiste i'ÏC de la réduction 
relative de la pression artérielle? Quelles hypothèses devez- vous faire? 

Cela ressemble à première vue à 1 exercice précédent mais t est pourtant assez 
différent. Dans ['exercice 1 P le pourcentage de décès était vraiment une proportion. 
Dans l'exercice 2. le pourcentage représente en fait un changement dans une 
mesure. Vous ne pouvez pas utiliser l’équation 2,ï, Vous apprendrez à calculer 
des 1 C pour ce genre de données dans les prochains chapitres et pour le faire vous 
devrez avoir une idée de la dispersion des valeurs (la déviation standard ou Terreur 
standard). 

Faites attention aux pourcentages l Les pourcentages peuvent exprimer une pro- 
portion, une différence relative de proportions, une différence relative entre deux 
mesures ou encore d'autres choses, N utilisez la méthode du chapitre 2 qu avec des 
proportions, 

3. On étudie la viabilité de cellules par une coloration au bleu de trypan. Avec un 
hémocytomètre. on dénombre 94 cellules non teintées (viables) et 6 cellules tein- 
tées {indiquant qu'elles ne sont pas viables). Pouvez-vous calculer HC à 95% de la 
proportion de cellules teintées (mortes!? Si oui. calculez cet intervalle. Si non, de 
quelles informations devez-vous disposer? Quelles hypothèses devez-vous (être? 

13 s'agit essentiellement du même problème que dans l'exercice 1 . Le tube entier de 
cellules constitue la population et on a évalué la viabilité d'un échantillon de ces 
cellules. Si le tube a été bien mélangé, i! est raisonnable de penser que l'échantillon 
a été sélectionné de façon aléatoire dans la population. Vous pouvez calculer un IC 
à 95% de la proportion de cellules viables dans l'entièreté de la population. En 
utilisant l éqitatlon 2 1, vous pouvez dire que vous êtes surs à 95 % que la propor- 
tion de cellules teintées (mortes) se trouve entre 0.0 î 3 et 0,107, 

4. En 1989 ? 20 étudiants sur 125 inscrits en seconde année de médecine a San Diego 
ont raté l'examen écrit de biostatistique* Pouvez-vous calculer TIC à 95% de la 
probabilité de réussir cet examen ? Si oui. calculez cet intervalle. Si non, de quelles 
informations devez-vous disposer? Quelles hypothèses devez-vous faire 7 
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sentent l' activité enzymatique en unités par minute pat milligramme de protéine 
membranaire. 

Résumez ces données comme vous le feriez pour une publication, Les lecteurs ne 
s'intéressent pas aux résultats individuels de chaque jour; une moyenne générale 
avec une mesure de la dispersion peut suffire. Présentez les résultats sous forme 
d'une moyenne, d'une valeur d r erreur et sans oublier n. justifiez vos décisions. 

Cet exercice contient deux difficultés, Premièrement, vous devez décider de ce que 
vous allez faire de la deuxième expérience du mardi. Le résultat est très différent 
des autres. Décider ce qu i! faut faire de valeurs extrêmes est un problème difficile 
et les scientifiques adoptent des attitudes différentes. Dans ce cas-ci r il est assez 
difficile de croire que cette valeur est juste, Non seulement elle est très éloignée des 
autres résultats du même jour mais en plus elle est très éloignée des résultats des 
six autres expériences réalisées les autres fours. Comme l'expérience a été menée 
sur des cellules en culture, il n'existe pas de variabilité biologique d'un jour à 
L'autre. Les seules sources de variation sont les erreurs expérimentales. Il semble 
donc évident que la valeur 967 n'est pas correcte. Dans un premier temps, il serait 
utile de consulter le cahier de notes du laboratoire pour voir si T expérimentateur 
n'a rien noté de particulier à propos de ce tube en cours d'expérience. Si le cher- 
cheur a signalé un problème avec cette expérience, on pourrait l’écarter en toute 
bonne conscience. Mais même sans cela, on pourrait la supprimer des analyses en 
veillant à noter avec précision dans un livre de notes la démarche qui a été suivie. 
Inclure cette valeur modifierait tous les calculs et les résultats seraient dépourvus 
d Intérêt, 

Si les lignes représentaient différents patients (plutôt que différentes expériences 
réalisées sur des cellules issues de la même culture), il faudrait adopter une autre 
attitude. Dans le cas de patients, la variabilité biologique joue un rôle. Peut-être 
que la valeur la plus grande est juste et que les deux petites sont fausses. Peut-être 
que le deuxième patient est réellement différent du premier et du troisième. Si c'est 
possible. Il faudrait faire une seconde Ibis l'expérience avec le deuxième patient 
pour pouvoir trancher. 

Le second problème consiste à regrouper les huit valeurs restantes. Comment 
faire ? Il n'est pas tout à fait juste de les considérer comme des mesures indépen- 
dantes, Les expériences réalisées le même jour se ressemblent plus qu elles ne 
ressemblent aux expériences réalisées les autres jours (la variabilité est d'ailleurs 
plus importante d'un jour à ['autre que d une expérience à l'autre), Par conséquent, 
il n'est sans doute pas valide de calculer la moyenne et la DS ou l'ESM des huit 
valeurs. 

Par contre, on peut calculer la valeur moyenne de chaque jour, calculer ensuite fa 
moyenne et l'ESM des trois moyennes et eniïn l' IC à 95%, Cela a du sens si on 
considère que la population est constituée des moyennes de toutes les expériences 
avec n = 3. Nous pouvons être surs à 95% que la vraie moyenne se trouve dans 
lin ter val le de confiance 103 . 


lü ' Il serait mieux d’utiliser une technique qui tiendrait également compte de la variabilité entre les expériences. 
Mari c*est difficile à calculer, confus à expliquer et cela rte changerait pas beaucoup les résultats 
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CHAPITRE 7 


1. (Même données que celles de l'exercice 4, chapitre 5). Le niveau sérique d une 
hormone {le facteur Y) vaut 93 ± 1,5 (moyenne ± ESM) chez 100 femmes non 
enceintes et 1 10 ± 2,3 (moyenne ± ESM) chez 100 femmes au premier trimestre de 
leur grossesse. 

a) Que vaut i'ïC à 95 % de la différence entre les niveaux moyens du fadeur Y ? 

L ES d une différence est la racine carrée de la somme des carrés des valeurs 
des deux ESM (équation 7,1) soit 2,75 unités/ml dans cet exercice. Avec 
1 00 femmes dans chaque groupe, il y a 100 H- 1 00 — 2 — 1 98 degrés de liberté. 
Pour autant de degrés de liberté, t 4 — 1,97. La différence entre les moyennes 
vaut 1 10 -93 = 17, L'ÏC à 95 % s'étend à 1 ,97 ES de part et d'autre soit de 1 1 .6 
à 22 A unités/ml. Si nous supposons que les deux échantillons sont représen- 
tatifs des populations, nous pouvons être sûrs à 95 % que le niveau moyen du 
facteur Y chez les femmes enceintes est lï,6 à 22,4 unités/ml plus élevé que 
chez les femmes non enceintes, 

b) Quelles hypothèses devez-vous faire pour répondre à cette question ? 

Nous faisons l'hypothèse que les deux échantillons sont représentatifs des 
populations de femmes enceintes et non enceintes des memes tranches d'âge. 
Puisque les échantillons sont d assez grande taille, nous n avons pas besoin de 
faire l'hypothèse que les distributions sont gaussiennes. Nous devons supposer 
que les deux populations ont les memes déviations standards et que les fem- 
mes ont chacune été sélectionnées de façon indépendante. 

2. Pullan et coll. ont étudié l'utilisation de nicotine transdermique pour traiter la 
colite ulcéreuse. Le niveau de nicotine plasmatique de départ valait 0,5 ±1,1 ng/ 
ml (moyenne ± DS; n — 35), Après 6 semaines de traitement, le niveau plasma- 
tique valait 8,2 ± 7,1 ng/ml (n — 30), 

Calculez 11C à 95 % de F augmentation du niveau de nicotine plasmatique. 

L'ÏC à 95% de la différence va de 5,3 à 10, 1 ng/ml (sur base des équations 7.2 et 
7.3). 

Quelles hypothèses faites-vous ? Sont-elles respectées ? 

* Les sujets sont représentatifs de tous les patients avec une colite ulcéreuse. Cette 
hypothèse paraît raisonnable mais si vouiez en être sûrs, vous devez vous rensei- 
gner sur la façon dont les investigateurs ont recruté les sujets, 

• Les populations suivent une distribution gaussienne. Comme les échantillons sont 
assez grands, ce n est pas très important. Sur base des données. H est évident que 
les valeurs ne suivent pas une distribution gaussienne. Si les populations étaient 
gaussiennes, 95% des données seraient comprises entre 2 DS de part et d’autre de 
la moyenne et la distribution serait symétrique autour de la moyenne. D'après les 
données de cet exercice, il faudrait que les niveaux de nicotine puissent être néga- 
tifs or ce n'est pas possible. 
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Do y leur el raideur Pas de douleur ni de raideur Total 


Poignets hypermobiles 
Poignets normaux 
Total 


5 

\{)2 

107 


91 

462 

55Ï 


96 

564 

192 


chiffre 5 dans la cellule supérieure gauche. Le reste des cellules du tableau se 
remplît de la même façon. 

Calculer un risque relatif dans [es études transversales a du sens. Le risque 
relatif vaut 0.29. Le risque d'avoir des poignets raides ou douloureux pour des 
musiciens qui ont des poignets hypermobiles vaut seulement 29 % du risque 
des musiciens qui nont pas de poignet hypermobile. Au moyen d Instat ou de 
l’équation 8,7, vous pouvez calculer I IC approximatif à 95%, Il s’étend de 0,12 
à 0,69. Nous sommes sûrs à 95% que les musiciens aux articulations hyper- 
mobiles ont une prévalence de douleur et de raideur des poignets qui vaut 
entre 1 2% et 69% de celle des musiciens aux poignets normaux. Les poignets 
hypermobiles protègent donc les musiciens de la douleur et de la raideur, 

Vous pourriez également calculer la différence entre les prévalences. Parmi les 
musiciens aux poignets hypermobiles, la prévalence de douleur et de souf- 
france vaut 2,5%. Parmi les musiciens sans poignets hypermobiles, la préva- 
lence de douleur et de souffrance vaut 1 8. 1 %. La différence est de 12,9 %, avec 
un IC approximatif à 95% de la différence allant de 7,4% à 18,4 %, 

Pour interpréter ces résultats, vous devez supposer que les musiciens étudiés 
dans cette étude sont représentatifs des musiciens d'autres lieux. Vous devez 
aussi supposer que l'évaluation de l'hypermobiitté est objective et qu elle n'est 
pas influencée par la présence ou l absence de douleur et de raideur. 

3, Un même nombre de cellules (100 000 par ml) a été placé dans quatre flacons. 
Deux lignées de cellules ont été utilisées. Certains flacons ont été traités avec des 
substances pharmaceutiques, tandis que les autres n ont été traités qu'avec l'ad- 
juvant (contrôle). Les données reprises dans le tableau suivant correspondent aux 
nombres moyens de cellules (milliers par millilitre) après 24 heures. Analysez ces 
données de la façon la plus complète possible, SI vous aviez accès à toutes les 
données originales, souhaiteriez-vous résumer les données autrement? 
Comment? 

Il ne s'agit pas d'un tableau de contingence et aucune des méthodes présentées 
dans le chapitre 8 n est appropriée. Les valeurs reprises dans le tableau sont des 
nombres moyens de cellules et pas des nombres de sujets dans chaque catégorie. 


Substance pharmaceutique j Pas de substance pharmaceutique 


Lignée de cellules 1 145 198 

Lignée de cellules 2 256 356 
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données sont impressionnantes et apportent une solide évidence que le système de 
distribution d'eau peut être impliqué dans l'étiologie de la maladie. 

Pour interpréter ces données^ vous devez supposer que les sujets et les témoins 
étudiés sont représentatifs des autres personnes qui ont ou qui n'ont pas contracté 
la maladie. Vous devez également supposer que les sujets et les témoins ont été 
sélectionnés indépendamment. Par exempte, l'étude ne serait pas valide si les 
chercheurs avaient sélectionné plusieurs cas ou témoins du même ménage (ils 
boivent bien sûr tous de feau du même système de distribution}. Et enfin, vous 
devez supposer qu'il n'y a pas d'autres différences entre les personnes qui boivent 
aux deux systèmes de distribution. Vous ne seriez pas capables d'interpréter ces 
résultats si ces deux groupes de personnes achetaient aussi leur nourriture à deux 
endroits dillérents ou travaillaient dans des villages différents ou différaient d une 
quelque autre façon. 

Comment ces chercheurs auraient-ils pu mener une étude prospective pour tester 
leur hypothèse? 

Pour mener une étude prospective, les chercheurs auraient dû sélectionner des 
sujets sur base du système de distribution qui les approvisionnait en eau de bois- 
son et observer ensuite s'ils développaient la maladie. Si la maladie est rare, une 
étude prospective exige plus de sujets qu une étude rétrospective. 



CHAPITRE 10 


1 , Vous souhaitez tester [ hypothèse selon laquelle un lancé de pièce n est pas truqué. 
Vous lancez 6 fois la pièce et elle tombe chaque fois sur le côté face. Quelle est 
l'hypothèse nulle ? Que vaut la P-vaieur ? Quel test est le plus approprié, un test uni 
ou bilatéral ? Que tirez-vous comme conclusion ? 

L hypothèse nulle est que la pièce est lancée honnêtement et donc que la proba- 
bilité qu elle tombe sur le coté face soit donc exactement 0,5, Si c'était vrai, îa 
probabilité que 6 lancés consécutifs tombent tous sur le côté face serait 
0,5 h = 1/64 = 0,016. Il s'agit d'une P-valeur unilatérale. La probabilité que le 
résultat des 6 lancés soient identiques (tous « pile» ou tous « face») vaut deux fois 
0,016 soit 3.2 %. Cest une P-valeur bilatérale. 

11 est impossible d interpréter ces résultats sans la moindre information sur le 
contexte. Pour quelle raison pourrait-on suspecter que le lancé de la pièce soit 
truqué ? Si vous utilisez une P-valeur unilatérale, vous deviez avoir décidé, avant de 
collecter les données, que vous vous attendiez à observer trop de côtés face. Dans le 
cas contraire, vous devriez choisir une P-valeur bilatérale de 0,032, Comment doit- 
on interpréter les résultats ? Soit il existe un problème systématique avec le lancé 
de la pièce qui a pour conséquence que le côté face apparaît plus de la moitié des 
fois, soit il s’agit d'une coïncidence. Cette coïncidence surviendrait avec une pièce 
non truquée 3,2 % des fois. Sauf si on a une raison de suspecter que le lancé de la 
pièce est truqué (par exemple, s'il faisait partie d'un spectacle de prestïdigitationf 
on aurait plutôt tendance à penser qu'il s'agit d'une coïncidence. 
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des enfants non daltoniens qui peuvent répondre correctement à une question 
concernant la couleur à cet âge 

4, Pour le patient C de l'exemple de la porphvrie. quelle serait la valeur prédictive d un 
lest positif si, par votre intuition clinique, vous estimiez la probabilité a priori à 
75 %? 

Vous pouvez construire le tableau suivant. 



Présence de la maladie Absence de la maladie 


< 99 unités 
> 99 unités 
Total 


615 

135 

750 


9 

241 

250 


Total 


624 

376 

1000 


La valeur prédictive vaut 61 5/624 — 98,6%, Puisque la probabilité a priori est plus 
grande, la valeur prédictive doit être plus grande également. Avant d'obtenir les 
résultats du test, vous pensiez déjà que la probabilité serait plus grande. Les résul- 
tats du test augmentent encore davantage la probabilité. 



CHAPITRE 1 5 


1. Une étudiante voudrait savoir si le traitement de cellules avec une hormone spé- 
cifique augmente le nombre d'un certain type de récepteurs. En accord avec son 
promoteur, elle estime qu'une augmentation de moins de 100 récepteurs par 
cellule est trop faible pour y prêter attention. Sur base de la déviation standard 
de résultats observés dans des études similaires, elle calcule la taille de I échantil- 
lon nécessaire pour avoir une puissance de 90% pour détecter une croissance de 
100 récepteurs par cellule. Elle effectue l'expérience autant de fois que nécessaire, 
rassemble les données et obtient une P-valeur de 0,04. 

L'étudiante pense que 1 expérience est pertinente et elle pensait que la probabilité a 
priori que son hypothèse soit vraie était de 60%. Son promoteur était plus scep- 
tique et pensait que la probabilité a priori atteignait seulement 5 %. 

a) En combinant la probabilité a priori et la P- va leur, quelle est la probabilité que 
ces résultats soient dus au hasard? Répondez à la fois du point de vue de 
l'étudiant et du point de vue du promoteur. 

Le point de vue de l'étudiante est illustré dans le tableau suivant, il présente les 
résultats de 1000 expériences hypothétiques. 

Parmi 556 expériences ayant une P-valeur inférieure à 0,04, le nombre de 
récepteurs augmente réellement dans 540. La probabilité que le nombre de 
récepteurs augmente réellement vaut donc 540/556 = 97,1 % et il reste 2,9 % 
de chance que les résultats soient dus à une coïncidence. 

Le point de vue du promoteur, illustré dans le tableau suivant, est différent. 
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tlstiquement significatif si l'hypothèse de recherche est vraie que si 1 hypothèse 
nulle est vraie. 

Vous rencontrerez rarement, voire jamais, un rapport de vraisemblance calculé 
pour un test statistique, C'est en partie parce que, dans de nombreuses situations, 
il est difficile de définir l'hypothèse de recherche et donc difficile de calculer la 
puissance. Mais c'est aussi simplement par habitude. 



CHAPITRE 17 


1 . Dans l'exemple 17,1, comment les chercheurs auraient-ils analysé les données s'ils 
avaient mesuré deux fois la sensibilité à l'insuline et le pourcentage de C 2 0-2 2 chez 
chaque sujet? 

L'approche la plus directe consisterait à représenter chaque paire de mesures par 
un point sur le graphique. Si faites cela, vous aurez n = 26 au lieu de n = 13, Mais 
il n'est pas correct d'analyser les données puisque vous ne respecteriez pas l'hypo- 
thèse d’indépendance des observations. 11 est très probable que la seconde mesure 
de chaque sujet soit plus proche de sa propre première mesure que des mesures des 
autres sujets. 

Vous devriez d'abord obtenir la moyenne des deux mesures de sensibilité à l'insu- 
line pour chaque sujet, ensuite la moyenne des deux mesures de %C20-22 de 
chaque sujet et enfin calculer le coefficient de corrélation entre la mesure moyenne 
de sensibilité à l'insuline et la mesure moyenne de%C20-22. 

2. La P- va leur de l'exemple 17.1 était bilatérale. Que vaut la P-valeur unilatérale? 
Que signifie-t-elle ? 

La P-valeur bilatérale vaut 0,0021. Rappelez-vous ce que cela signifie. S'il n'y avait 
vraiment pas de corrélation entre les variables X et V dans la population, on aurait 
2,1 % de chance d'observer une corrélation aussi forte (ou plus forte) dans une 
étude de celte taille. Si l'hypothèse nulle était vraie, on aurait OJ % de chance de 
trouver unr = 077 en tirant 1 3 sujets au hasard et 0J % de chance de trouver un 
r = 077 en tirant 13 sujets au hasard. 

Vous ne pouvez calculer une P-valeur unilatérale que si vous l'aviez décidé avant de 
collecter les données et que vous aviez spécifié fa direction de l'hypothèse de 
recherche. Si vous aviez énoncé que la corrélation serait positive (la sensibilité à 
l'insuline augmente quand Ie%C20-22 augmente), alors la P-valeur unilatérale 
serait égale à 0,001 . 

3. Faut-il mesurer les variables X et Y dans les mêmes unités pour calculer un coef- 
ficient de corrélation ? Peuvent-elles être mesurées dans les mêmes unités ? 

Comme le montre l'exemple 17,] T X et Y ne doivent pas être mesurés dans les 
mêmes unités. Mais, ils peuvent être mesurés dans les mêmes unités. 

4. Que vaut la P-valeur si r — 0,5 avec un échantillon de taille n = 10 ? Que vaut la 
P-valeur si r = 0,5 avec un échantillon de taille n — 100? 
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b) Combien de sujets sont nécessaires pour avoir 60% de puissance de détecter 
une diminution de 50% du taux de mortalité (et = 0,1) ? 

Pi ™ 0.10, p 2 =■ 0,5 - P! = 0.05. a = 0.10. 0 = 0,40 

Vous ne pouvez pas utiliser le tableau du chapitre pour trouver la somme des 
carrés des valeurs z puisque la table n'inclut pas 0 = 0,40. Regardez la deu- 
xième colonne du tableau A4. 2 de l'annexe pour trouver 40%, vous pouvez 
ensuite constater que z# vaut environ 0,25 (40% d'une population gaussienne 
à z > D,25|. Pour a — 0,10 (bilatérale), il faut utiliser la quatrième colonne du 
tableau A4. 2 pour trouver que i vaut environ 1,65 (10% d une population 
gaussienne a z > l f 65 ou z < 1.65), 

Maintenant, vous pouvez remplacer toutes les inconnues dans l'équation 22.6, 
Vous avez besoin de 200 personnes dans chaque groupe. Pour Unir, vous 
obtenez un nombre raisonnable. 

c) Est-il éthique de comparer une nouvelle technique (que vous pensez être meil- 
leure) avec une technique standard ? 

Si vous êtes vraiment certains que la nouvelle technique est supérieure, il n'est 
pas éthique d'appliquer l'ancienne technique à qui que ce soit. Mais a quel 
point êtes-vous vraiment sûrs? L'histoire de la médecine est remplie d'exem- 
ples de nouvelles techniques qui se sont avérées sans intérêt malgré l'enthou- 
siasme des personnes qui les avaient utilisées dès le début. Pour vraiment 
comparer deux techniques, il faut réaliser une étude, 11 se peut que les patients 
qui ont reçu le traitement standard se rétablissent mieux que les patients qui 
ont reçu le nouveau traitement. 

Les lymphocytes contiennent des récepteurs bêta-adrénergiques. L épinéphrine se 
Ile à ces récepteurs et module leurs réponses immunitaires. Il est possible de 
compter le nombre moyen de récepteurs dans les lymphocytes humains en utili- 
sant un petit échantillon de sang. Vous souhaitez tester l r hypothèse que tes per- 
sonnes asthmatiques ont moins de récepteurs. En lisant des articles, vous apprenez 
qu'il y a environ 1000 récepteurs par cellule et que le coefficient de variation dans 
une population normale est d'environ 25%. 

a) De combien de sujets asthmatiques avez-vous besoin pour déterminer le nom- 
bre de récepteurs par cellule, à plus ou moins 1 0 récepteurs près, avec 90 % de 
confiance ? 

Vous devez utiliser l'équation 22.1, Puisque vous savez que le coefficient de 
variation vaut 25 %, vous pouvez déduire que la déviation standard vaut envi- 
ron 250 récepteurs/cellule. L équation 22.1 permet de calculer la taille 
d'échantillon pour des Intervalles confiance à 95%. Four des intervalles à 
90% i qui sont plus étroits), la valeur de t* doit être remplacée par un nombre 
plus petit. La table A5.3 de l'annexe vous montre que la valeur de t* pour 90 % 
de confiance et de nombreux degrés de liberté vaut 1 ,65, 

Donc n — L65 : x (250/100)“ = 17 personnes dans chaque groupe, 

b) Vous voulez comparer un groupe de sujets normaux avec un groupe d'asthma- 
tiques. Combien de sujets sont nécessaires dans chaque groupe pour avoir 
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Si vous souhaitez analyser les données de façon manuelle, la première étape 
consiste à ordonner les valeurs sans distinguer le fait qu'il s'agisse de témoins 
ou de sujets traités avec le médicament. Il faut ensuite additionner les rangs 
dans chaque groupe. 


Témoins 


] 162 
1095 
1327 
1261 
1103 
1235 

Somme des rangs 



8 

6 

12 

11 

7 

10 

54 


Médicament 


892 

903 

1164 

1002 

961 

875 

Somme des rangs 



2 

3 
9 
5 

4 
1 

24 


De nombreux livres (pas celui-ci ) fournissent des tables pour le test de Mann- 
Whitney. On peut y trouver la P- valeur sur base de la somme des rangs et de la 
taille de l'échantillon, 

Pour la calculer manuellement, il faut utiliser les équations 24.2 et 24.3, qui 
donnent des réponses approximatives. L équation 24.2 permet de calculer deux 
valeurs pour U/U “ 33 et U — 3, Vous obtiendrez la même valeur de Z quelle 
que soit la valeur de U utilisée. Sur base de i équation 24,3 (et sachant que 
n a — Tib = 6), z — 2,40, On trouve dans la table A5.2 de X annexe que pour 
1,64% d une distribution gaussienne, z > 2,40 ou < -2,40. La P-valeur bila- 
térale vaut donc approximativement 0,0164, 

b) Calculez le test t. 

Une fois de plus, il serait plus facile d utiliser un programme informatique, 
Instat donne les résultats suivants : t = 3,978 et P = 0,0026, 

Pour calculer le test t manuellement, vous devez d'abord calculer la moyenne 
et l'ESM de chaque groupe. 

Témoins : Moyenne — 1 197,2 ESM — 37,8 

Traités : Moyenne — 966,2 ESM = 44,1 

Vous devez ensuite calculer [ erreur standard de la différence entre les moyen- 
nes qui est égale à la racine carrée de la somme du carré des valeurs des deux 
ESM. Cela vaut 58,1 , Le rapport t est égal à la différence entre les moyennes 
divisée par l'erreur standard de la différence — (1197,2 - 96,2)/58,î = 3,97. 
Pour déterminer le nombre de degrés de liberté, il faut additionner le nombre 
total de sujets et soustraire 2. dl = ÎÛ. Regardez dans la table A5.7 de l'annexe : 
dl — 10 et P “ 0.003. 
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facteur 3 ou avec une augmentation du risque par un facteur 3* Même si 1 étude 
ne montre aucune évidence d'association, elle est trop petite pour être négative 
de façon convaincante. 

c) Si tes implants doublaient réellement le risque de maladie du tissu conjonctif, 
quelle est la puissance d'une étude de cette taille pour détecter une différence 
significative avec P < 0,05 ? 

Une façon de juger de l'utilité des données de l'étude est de calculer fa puis- 
sance qu'avait l'étude pour mettre en évidence des différences hypothétiques. 
Par exemple, si les femmes avec des implants mammaires développaient réel- 
lement deux fois plus de maladies du tissu conjonctif que les non exposées, 
quelle était la puissance de cette étude pour trouver une différence statistique- 
ment significative? 

Nous fixerons pj à 0,0067, puisqu'il s’agît de la proportion de non exposées (et 
d'exposées) qui ont développé une maladie du tissu conjonctif (10/1484). 
Nous fixerons pi à la moitié de cette valeur, soit 0,0034* Pour calculer la 
puissance, vous devez d'abord utiliser l 'équation 27,3 pour calculer que 
H = Ü P 0472. 

La figure 27. î n'est pas très utile dans le cas de si petites valeurs de H. vous 
devez donc utiliser l'équation 27,4. Fixez - J ,96 puisque nous utilisons 
la définition conventionnelle de la signification statistique (P < 0.05, bilaté- 
rale). Puisque les tailles d'échantillon sont différentes, vous devez calculer îa 
moyenne harmonique selon l'équation 27.5 n = 2 x 747 x 1484/ 
(747 + 1484) — 993,7, Maintenant, utilisez l'équation 27.4 pour calculer 
Zputeux ^ — 0,91, La table A4 J 4 de l'annexe vous apprend que la puissance 
vaut environ 18%. Si les implants mammaires doublaient réellement le risque 
de maladie du tissu conjonctif, une étude de cette taille permettrait d'observer 
une association significative moins d une fois sur cinq. Puisque cette étude a 
une puissance si basse, vous ne devez pas interpréter les résultats trop ferme- 
ment 
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CHAPITRE 28 


1 . Vous utilisez un hémocytomètre pour dénombrer des globules blancs. Vous regar- 
dez une lame quadrillée au microscope et observez 25 carres de 0, t microlitre. Vous 
dénombrez les globules blancs dans 9 carrés et vous en trouvez 50 au total. Pouvez- 
vous calculer l’intervalle de confiance à 95% du nombre de globules blancs par 
mîcrolitre? Quelles hypothèses faites-vous? 

Vous avez compté 50 cellules dans 9 carres. Puisqu'il y a 250 carrés par microlltre, 
il y a 50 x (250/9) = 1389 cellules/microlitre. Pour calculer l'intervalle de 
confiance, il faut travailler avec le nombre réellement compté, 50. Vous pouvez 
trouver dans la table A5.9 de l'annexe que L'intervalle de confiance à 95% du 
nombre de cellules dans 9 carrés s'étend de 37,1 à 65,9, Il faut multiplier chaque 
limite de confiance par (250/9) pour déterminer 1 intervalle de confiance à 95 % du 
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Fable: À5J Intervalle de confiance à 95 % d'une proportion 

Il faut repérer la colonne correspondant au numérateur (IM) et la ligne correspondant au dénominateur (D). 
Les valeurs dans la table sont les limites inférieures et supérieures de (Intervalle de confiance à 95% de la 
proportion. Par exemple, si on constate que 4 patients sur 20 présentent une certaine complication, la 
proportion vaut 0,200 et l'tC à 95% va de 0,057 à 0,437, 
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Table A5.3 Valeurs de t* à utiliser pour calculer les intervalles de confiance 

Cette table fournit les valeurs de t* nécessaires pour calculer les intervalles de confiance. IL Întervalle de 
confiance de la moyenne s'étend dans les deux directions de part et d'autre de la moyenne, sur une distance 
égale à PE5AA multipliée par la valeur critique de t présentée dans la table ci-dessous. Le nombre de degrés de 
liberté est égal au nombre d'observations moins un, Dans ce livre, le symbole t* est utilisé pour désigner la 
valeur critique de la distribution t, 



Valeur critique de î pour UC 

À _% 


(H 

ït à 40% 

IC À 95% 

K à 99% 

_ ■■ 

1 

6.3137 

12,7062 

63,6559 

2 

2.9200 

4,3027 

9,9250 

3 

2,3534 

3,1824 

5,8408 

4 

2.1318 

2,7765 

4,6041 

5 

2,0150 

2,5706 

4,0321 

6 

1,9432 

2,4469 

3,7074 

7 

1,8946 

2,3646 

3,4995 

S 

1,8585 

2 , 3060 

3 3554 

9 

1.8331 

2.2622 

3,2498 

10 

1.8125 

2 r 228t 

3,1693 

11 

1,7959 

2,2010 

3,1058 

12 

1,7823 

2,1788 

3.0545 

n 

1,7709 

2,1604 

3,0123 

14 

17613 

2,1448 

2,9768 

15 

1.7531 

2.3 315 

2.9467 

16 

1,7459 

2,1199 

2,9208 

17 

1,7396 

2,1098 

2,898 2 

18 

1.7341 

2,1009 

2.8784 

19 

1.7291 

2,0930 

2,8609 

20 

1,7247 

2,0860 

2,8453 

21 

1.7207 

2.0796 

2,8314 

22 

1,7171 

2,0739 

2,8188 

23 

1,7139 

2,0687 

2,8073 

24 

17109 

2,0639 

2.7970 

25 

1,7081 

2,0595 

2,7874 

26 

1 7056 

2.0555 

2,7787 

27 

1.7033 

2,0518 

2,7707 

28 

1,701 1 

2,0484 

2,7633 

29 

1,6991 

2,0452 

2,7564 

30 

1,6973 

2,0423 

2,7500 

35 

1,6896 

2.0301 

2, 7238 

40 

1 .6839 

2,021 1 

2,7045 

45 

1.6794 

2.0141 

2,6896 

50 

1,6759 

2,0086 

2,6778 

100 

1,6602 

1,9840 

2.6259 

200 

1,6525 

1,9719 

2.6006 

50Û 

1 6479 

1,9647 

2,5857 

1000 

1,6464 

1,9623 

2.5807 
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ïahle A5.9 Intervalles de confiance à 95% pour la distribution de Poisson 

C est le nombre d'événements par unité de temps ou le nombre d'objets par unité d'espace. La table fournit 
l'intervalle de confiance à 95 % du nombre moyen d'événements par unité de temps ou du nombre moyen 
d'objets par unité d'espace. Pour des valeurs de C plus grandes, il faut utiliser l'équation suivante: 

C - !.%\Æ à C H- 1,96\Æ. Il ne faut pas normaliser C et l'exprimer en une unité standard quekonque f C 
est !e nombre d'événements ou d'objets. 


c 

Inférieure 

Supérieure 

C 

Inférieure 

Supérieure 

C 

1 Inférieure 

Supérieure 

0 

0 

3,69 

41 

29,42 

55,62 

82 

65,21 

101,78 

1 

0,03 

5,57 

42 

30.27 

56.77 

83 

66, n 

102,89 

2 

0,24 

7,22 

43 

31.12 

57.92 

84 

67 

104 

3 

0,62 

8.77 

44 

31,97 

59.07 

85 

67.89 

105,10 

4 

1.09 

10,24 

45 

32.82 

60.21 

86 

68.79 

106.21 

5 

1,62 

1 1,67 

46 

33,68 

61.36 

87 

69.68 

107,31 

6 

2.20 

13.06 

47 

34.53 

62.50 

88 

70.58 

108.42 

7 

2,81 

14,42 

48 

35,39 

63,64 

89 

71,47 

109,52 

8 

3,45 

15,76 

49 

36.25 

64,78 

90 

72,37 

no, 63 

9 

4.12 

17,08 

50 

37.1 î 

65.92 

91 

73,27 

ni *73 

10 

4,80 

18,39 

51 

37,97 

67,06 

92 

74,16 

112,83 

II 

3,49 

19.68 

52 

38.84 

68.19 

93 

75,06 

113,93 

12 

6.20 

20.96 

53 

39.70 

69.33 

94 

75.96 

115.03 

13 

6,92 

22,23 

54 

40,57 

70,46 

95 

76,86 

116,13 

14 

7,65 

23,49 

55 

41.43 

71.59 

96 

77,76 

117,23 

15 

8.40 

24.74 

56 

42.30 

72,72 

97 

78.66 

118.33 

16 

9 r 15 

25,98 

57 

43.17 

73.85 

98 

79,56 

1 19.43 

17 

9,90 

27,22 

58 

44.04 

74,98 

99 

80.46 

120,53 

18 

10.67 

28.45 

59 

44.91 

76.11 

100 

81.36 

121,63 

19 

1 1 .44 

29,67 

60 

45.79 

77,23 

101 

82,27 

122.72 

20 

12,22 

30,89 

61 

46.66 

78.36 

J02 

83,17 

123,82 

21 

13 

32.IÛ 

62 

47.54 

79,48 

103 

84,07 

124,92 

22 

13.79 

33,31 

63 

48,4 i 

80.60 

104 

84.98 

126.01 

23 

14,58 

34,51 

64 

49,29 

81.73 

105 

85,88 

127,11 

24 

15,38 

35,71 

65 

50.17 

82.85 

106 

86.78 

128,20 

23 

16,18 

36.9(1 

66 

51.04 

83.97 

107 

87,69 

129,30 

26 

16,98 

38, 1Û 

67 

51.92 

85.09 

108 

88.59 

! 30,39 

27 

17,79 

39,28 

68 

52,80 

86.21 

109 

89.50 

13 î ,49 

28 

18,61 

40,47 

69 

53,69 

87.32 

110 

90.41 

132.58 

29 

19,42 

41,63 

70 

54,57 

88,44 

111 

91,31 

1 33.67 

30 

20,24 

42,83 

71 

55,45 

89,56 

112 

92,22 

134,77 

31 

21,06 

44 

72 

56,34 

90,67 

313 

93J3 

] 35,86 

32 

21.89 

45,17 

73 

57.22 

91.79 

114 

94.04 

136,95 

33 

22.72 

46.34 

74 

58,11 

92,90 

115 

94,94 

138.04 

34 

23,55 

47,51 

75 

58.99 

94,01 

116 

95.85 

139,13 

33 

24.38 

48.68 

76 

59.88 

95,13 

117 

96.76 

140,22 

36 

25,21 

49,84 

77 

60,77 

96.24 

118 

97,67 

141,31 

37 

26,05 

51 

78 

61,66 

97,35 

1 19 

98.58 

142,40 

38 

26,89 

52,16 

79 

62,55 

98,46 

120 

99.49 

143,49 

39 

27.73 

53,31 

80 

63,44 

99,57 

121 

100,40 

144.58 

40 

28,58 

54,47 

81 

64.33 

100.68 

122 

101,31 

145,67 
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sciences 

méthodes 



Cet ouvrage présente les principales méthodes de statistique médicale utili- 
sées dans la pratique quotidienne et dans la littérature théorique. 

Par une approche claire et synthétique, il aborde de manière détaillée les concepts 
et les techniques de base tels qu'ânîervalle de confiance, test d'hypothèse, 
P-valeur, test t, test x 2 , corrélation et régression. Il introduit également les tests 
non paramétriques, la survie, l analyse de variance à un facteur et des techniques 
plus poussées telles que la régression linéaire multiple, logistique et non linéaire. 

Uauteur insiste tout particulièrement sur l'interprétation des résultats, les condi- 
tions et situations d'application des méthodes et il met l'accent sur (es 
aspects pratiques. Les sections plus techniques ou avancées sont signalées et 
peuvent être sautées sans conséquence pour la compréhension de l'ensemble* 
Des exemples médicaux illustrent la théorie et des exercices résolus en détails 
figurent en fin de chaque chapitre. 
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